Результаты поиска по запросу "apache-spark"
Как передать всю строку в UDF - фильтр Spark DataFrame
Я пишу функцию фильтра для сложного набора данных JSON с множеством внутренних структур. Проходить отдельные столбцы слишком громоздко.Поэтому я объявил след...
Как визуализировать / построить дерево решений в Apache Spark (PySpark 1.4.1)?
Я использую Apache Spark Mllib 1.4.1 (PySpark, реализация Spark на python) для генерации дерева решений на основе имеющихся у меня данных LabeledPoint. Дерев...
Pyspark: исключение: процесс шлюза Java завершился до отправки драйверу его номера порта
Я пытаюсь запустить pyspark на моем MacBook Air. Когда я пытаюсь запустить его, я получаю сообщение об ошибке:
Spark DataFrames Groupby в список
Я пытаюсь сделать некоторый анализ на множествах. У меня есть пример набора данных, который выглядит следующим образом:orders.json
PhoenixOutputFormat не найден при запуске задания Spark на CDH 5.4 с Phoenix 4.5
Мне удалось настроить Phoenix 4.5 на Cloudera CDH 5.4, перекомпилировав исходный код.
Генерация случайных чисел в PySpark
Давайте начнем с простой функции, которая всегда возвращает случайное целое число:
Как записать полученный RDD в CSV-файл в Spark Python
У меня есть в результате RDD
Как экспортировать данные из Spark SQL в CSV
Эта команда работает с HiveQL: