Результаты поиска по запросу "rdd"

3 ответа

Apache Spark: карта против mapPartitions?

Какая разница междуРДД-х [https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD] map а такжеmapPartitions метод? И делаетflatMap вести себя какmap или какmapPartitions? Благодарю. (редактировать), то есть какая разница ...

1 ответ

этот ответ

я есть следующие данные в фрейме данных pyspark под названиемend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BИ я хочу агрегировать это следующим образом: Я хочу ...

3 ответа

Как рассчитать лучшее количество разделений для объединения?

Итак, я понимаю, что в целом следует использовать

ТОП публикаций

7 ответов

Объясните совокупную функциональность в Spark

1 ответ

это именно то, что вы получаете в вашем случае. Другими словами, отсутствие прямой коллизии хешей не гарантирует отсутствие коллизии по модулю произвольного числа.

ользую

1 ответ

Spark RDD: Как наиболее эффективно рассчитать статистику?

Предполагая существование RDD кортежей, подобных следующему:

2 ответа

Spark: разница при чтении в .gz и .bz2

1 ответ

Spark: вычесть два кадра данных

1 ответ

как объединить 3 пары RDD

У меня какое-то сложное требование1) 1) для Pinterest

2 ответа

Искра, когда объединение большого количества RDD выдает ошибку переполнения стека

Когда я использую «++» для объединения большого количества RDD, я получаю стек с ошибками потока.Spark версия 1.3.1 Среда: пряжа-клиент. - драйвер памяти 8GК...