Результаты поиска по запросу "apache-spark"

5 ответов

Как я могу найти размер RDD

я имею

5 ответов

Как экспортировать таблицу данных в PySpark в CSV?

Я использую Spark 1.3.1 (PySpark) и сгенерировал таблицу с помощью SQL-запроса. Теперь у меня есть объект, который является

1 ответ

Как я могу эффективно соединить большой rdd с очень большим rdd в искре?

У меня есть два RDD. Одна СДР составляет от 5 до 10 миллионов записей, а другая СДР - от 500 до 750 миллионов записей. В какой-то момент я должен присоединит...

ТОП публикаций

4 ответа

Как найти медиану и квантили с помощью Spark

1 ответ

SparkContext не сериализуется внутри объекта-компаньона

В настоящее время я пытаюсь расширить приложение машинного обучения, которое использует Scala и Spark. Я использую структуру предыдущего проекта от Дитериха ...

3 ответа

Что является эффективным, Dataframe или RDD или hiveql?

Я новичок в Apache Spark.Моя задача - прочитать два CSV-файла, выбрать из него несколько определенных столбцов, объединить их, объединить и записать результа...

1 ответ

Spark MLlib: построение классификаторов для каждой группы данных

Я пометил векторы (LabeledPoint-s) с номерами групп. Для каждой группы мне нужно создатьотдельный Классификатор логистической регрессии:

4 ответа

Spark MLLib Kmeans из датафрейма и обратно

Я стремлюсь применить алгоритм кластеризации kmeans к очень большому набору данных, используя Spark (1.3.1) MLLib. Я вызвал данные из HDFS, используя hiveCon...

1 ответ

Как сгруппироватьByKey RDD, с ключом DenseVector, в Spark?

Я создал СДР, в которой каждый элемент является парой ключ-значение, а ключ -

4 ответа

Как преобразовать DataFrame в Json?

У меня есть огромный JSON-файл, небольшая часть которого выглядит следующим образом: