Результаты поиска по запросу "apache-spark"

1 ответ

Как обрабатывать нулевые записи в SparkR

У меня есть SparkSQL DataFrame.Некоторые записи в этих данных пусты, но они не ведут себя как NULL или NA. Как я мог удалить их? Есть идеи?В R я могу легко у...

1 ответ

Ошибка «Соединение отказано» при запуске Spark Streaming на локальном компьютере

Я знаю, что уже есть много тем, связанных с отказом от потокового соединения. Но большинство из них в Linux или, по крайней мере, указывают на HDFS. Я запуск...

1 ответ

Конвертация RDD в LabeledPoint

Если у меня есть RDD около 500 столбцов и 200 миллионов строк, и

ТОП публикаций

5 ответов

SPARK SQL замена для агрегатной функции mysql GROUP_CONCAT

У меня есть таблица из двух столбцов строкового типа (имя пользователя, друг), и для каждого имени пользователя я хочу собрать всех его друзей в одну строку,...

1 ответ

Spark Mllib предсказывает странное число или NaN

Я новичок в Apache Spark и пытаюсь использовать библиотеку машинного обучения для прогнозирования некоторых данных. Мой набор данных сейчас составляет всего ...

1 ответ

СПАРК Является ли метод выборки на Датафреймах равномерной выборкой?

Я хочу произвольно выбрать число строк в кадре данных и знаю, что метод выборки делает это, но я обеспокоен тем, что моя случайность должна быть равномерной ...

2 ответа

Обработайте Spark Streaming rdd и сохраните в один файл HDFS

Я использую Kafka Spark Streaming для потоковой передачи данных.

1 ответ

Постоянно увеличивающаяся физическая память для приложения Spark в YARN

Я запускаю приложение Spark в YARN с двумя исполнителями с Xms / Xmx 32 ГБ и spark.yarn.excutor.memoryOverhead 6 ГБ.Я вижу, что физическая память приложения ...

1 ответ

Как создать кортежи (оригинальный ярлык, предсказанный ярлык) на Spark с помощью MLlib?

Я пытаюсь делать прогнозы с моделью, которую я получил от MLlib на Spark. Цель состоит в том, чтобы сгенерировать кортежи (orinalLabelInData, ForecastLabel)....

1 ответ

Hive UDF для выбора всех, кроме некоторых столбцов

Общий шаблон построения запросов в HiveQL (и SQL в целом) состоит в том, чтобы выбрать все столбцы (