Результаты поиска по запросу "apache-spark"

1 ответ

Фильтрация RDD на основе условий и извлечения совпавших данных в Python Spark

У меня есть данные, как,

4 ответа

Как рассчитать накопительную сумму, используя sqlContext

Я знаю, что мы можем использоватьОконная функция в писпарке рассчитать накопленную сумму. Но Window поддерживается только в HiveContext, а не в SQLContext. М...

4 ответа

Spark игнорирует SPARK_WORKER_MEMORY?

ТОП публикаций

3 ответа

UDF Pyspark DataFrame в текстовом столбце

Я пытаюсь очистить некоторые тексты НЛП от некоторых столбцов Unicode в PySpark DataFrame. Я пробовал в Spark 1.3, 1.5 и 1.6 и, похоже, не могу заставить вещ...

1 ответ

spark-submit: --jars не работает

Я создаю систему метрик для задания Spark Streaming, в системе метрики собираются у каждого исполнителя, поэтому источник метрик (класс, используемый для сбо...

1 ответ

Spark: решать сложные команды с высокой производительностью, такие как collect (), groupByKey (), reduByKey ()

Я знаю, что некоторые из Spark Actions вроде

2 ответа

Раздел DataFrameBy в один файл Parquet (на раздел)

2 ответа

Spark Выполнение файла TB в памяти

Предположим, у меня есть один файл данных Tb. Объем памяти каждого узла в кластере из 10 узлов составляет 3 ГБ.Я хочу обработать файл, используя спарк. Но ка...

3 ответа

Как передать данные из Kafka в Spark Streaming?

Я пытаюсь передать данные из Кафки в потоковое зажигание.Это то, что я сделал до сих пор:Установлены оба

6 ответов

Чтение файлов, отправленных с помощью spark-submit драйвером

Я отправляю задание Spark для запуска на удаленном кластере, запустив