Результаты поиска по запросу "rdd"
Apache Spark: карта против mapPartitions?
Какая разница междуРДД-х [https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD] map а такжеmapPartitions метод? И делаетflatMap вести себя какmap или какmapPartitions? Благодарю. (редактировать), то есть какая разница ...
этот ответ
я есть следующие данные в фрейме данных pyspark под названиемend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BИ я хочу агрегировать это следующим образом: Я хочу ...
Как рассчитать лучшее количество разделений для объединения?
Итак, я понимаю, что в целом следует использовать
Spark RDD: Как наиболее эффективно рассчитать статистику?
Предполагая существование RDD кортежей, подобных следующему:
как объединить 3 пары RDD
У меня какое-то сложное требование1) 1) для Pinterest
Искра, когда объединение большого количества RDD выдает ошибку переполнения стека
Когда я использую «++» для объединения большого количества RDD, я получаю стек с ошибками потока.Spark версия 1.3.1 Среда: пряжа-клиент. - драйвер памяти 8GК...