Результаты поиска по запросу "apache-spark"
Фильтрация RDD на основе условий и извлечения совпавших данных в Python Spark
У меня есть данные, как,
Как рассчитать накопительную сумму, используя sqlContext
Я знаю, что мы можем использоватьОконная функция в писпарке рассчитать накопленную сумму. Но Window поддерживается только в HiveContext, а не в SQLContext. М...
UDF Pyspark DataFrame в текстовом столбце
Я пытаюсь очистить некоторые тексты НЛП от некоторых столбцов Unicode в PySpark DataFrame. Я пробовал в Spark 1.3, 1.5 и 1.6 и, похоже, не могу заставить вещ...
spark-submit: --jars не работает
Я создаю систему метрик для задания Spark Streaming, в системе метрики собираются у каждого исполнителя, поэтому источник метрик (класс, используемый для сбо...
Spark: решать сложные команды с высокой производительностью, такие как collect (), groupByKey (), reduByKey ()
Я знаю, что некоторые из Spark Actions вроде
Spark Выполнение файла TB в памяти
Предположим, у меня есть один файл данных Tb. Объем памяти каждого узла в кластере из 10 узлов составляет 3 ГБ.Я хочу обработать файл, используя спарк. Но ка...
Как передать данные из Kafka в Spark Streaming?
Я пытаюсь передать данные из Кафки в потоковое зажигание.Это то, что я сделал до сих пор:Установлены оба
Чтение файлов, отправленных с помощью spark-submit драйвером
Я отправляю задание Spark для запуска на удаленном кластере, запустив