Результаты поиска по запросу "apache-spark"
Как обрабатывать нулевые записи в SparkR
У меня есть SparkSQL DataFrame.Некоторые записи в этих данных пусты, но они не ведут себя как NULL или NA. Как я мог удалить их? Есть идеи?В R я могу легко у...
Ошибка «Соединение отказано» при запуске Spark Streaming на локальном компьютере
Я знаю, что уже есть много тем, связанных с отказом от потокового соединения. Но большинство из них в Linux или, по крайней мере, указывают на HDFS. Я запуск...
Конвертация RDD в LabeledPoint
Если у меня есть RDD около 500 столбцов и 200 миллионов строк, и
SPARK SQL замена для агрегатной функции mysql GROUP_CONCAT
У меня есть таблица из двух столбцов строкового типа (имя пользователя, друг), и для каждого имени пользователя я хочу собрать всех его друзей в одну строку,...
Spark Mllib предсказывает странное число или NaN
Я новичок в Apache Spark и пытаюсь использовать библиотеку машинного обучения для прогнозирования некоторых данных. Мой набор данных сейчас составляет всего ...
СПАРК Является ли метод выборки на Датафреймах равномерной выборкой?
Я хочу произвольно выбрать число строк в кадре данных и знаю, что метод выборки делает это, но я обеспокоен тем, что моя случайность должна быть равномерной ...
Обработайте Spark Streaming rdd и сохраните в один файл HDFS
Я использую Kafka Spark Streaming для потоковой передачи данных.
Постоянно увеличивающаяся физическая память для приложения Spark в YARN
Я запускаю приложение Spark в YARN с двумя исполнителями с Xms / Xmx 32 ГБ и spark.yarn.excutor.memoryOverhead 6 ГБ.Я вижу, что физическая память приложения ...
Как создать кортежи (оригинальный ярлык, предсказанный ярлык) на Spark с помощью MLlib?
Я пытаюсь делать прогнозы с моделью, которую я получил от MLlib на Spark. Цель состоит в том, чтобы сгенерировать кортежи (orinalLabelInData, ForecastLabel)....
Hive UDF для выбора всех, кроме некоторых столбцов
Общий шаблон построения запросов в HiveQL (и SQL в целом) состоит в том, чтобы выбрать все столбцы (