Результаты поиска по запросу "rdd"

1 ответ

Как я могу эффективно соединить большой rdd с очень большим rdd в искре?

У меня есть два RDD. Одна СДР составляет от 5 до 10 миллионов записей, а другая СДР - от 500 до 750 миллионов записей. В какой-то момент я должен присоединит...

1 ответ

Список как ключ для PySpark's ReduceByKey

Я пытаюсь вызвать функцию pyspark reduByKey для данных формата

4 ответа

Как найти медиану и квантили с помощью Spark

ТОП публикаций

1 ответ

Пояснение метода складывания искры RDD

Я запускаю Spark-1.4.0, предварительно созданную для Hadoop-2.4 (в локальном режиме), чтобы вычислить сумму квадратов DoubleRDD. Мой код Scala выглядит так

1 ответ

Не в состоянии объявить аккумулятор типа String

Я пытаюсь определить переменную аккумулятора типа String в оболочке Scala (драйвер), но получаю следующую ошибку: -

1 ответ

Как напечатать переменную аккумулятора из задачи (кажется, «работает» без вызова метода значения)?

4 ответа

PySpark: сопоставление SchemaRDD с SchemaRDD

2 ответа

Ленивый foreach на Spark RDD

9 ответов

Spark - repartition () против coalesce ()

По данным Learning SparkИмейте в виду, что перераспределение ваших данных является довольно дорогой операцией. Spark также имеет оптимизированную версию repa...

1 ответ

Конвертация RDD в LabeledPoint

Если у меня есть RDD около 500 столбцов и 200 миллионов строк, и