Результаты поиска по запросу "rdd"

1 ответ

Влияние на производительность RDD API по сравнению с UDF, смешанными с DataFrame API

2 ответа

Как заставить Spark оценивать операции DataFrame inline

СогласноSpark RDD документы [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: > Все преобразования в Spark являются ленивыми, поскольку они не сразу вычисляют свои результаты ... Такая конструкция позволяет Spark ...

1 ответ

Исключение при доступе к KafkaOffset из RDD

У меня есть потребитель Spark, который течет из Кафки. Я пытаюсь управлять смещениями для семантики, выполняемой ровно один раз.Однако при доступе к смещению...

ТОП публикаций

1 ответ

Сохраняет ли spark все элементы RDD [K, V] для определенного ключа в одном разделе после «groupByKey», даже если данные для ключа очень большие?

Считайте, что у меня есть PairedRDD, скажем, 10 разделов. Но ключи распределены неравномерно, то есть все 9 разделов с данными принадлежат одному ключу, скажем

1 ответ

Spark: Как уменьшить «ByByKey», когда ключи являются массивами, которые не могут быть хэшируемыми?

У меня есть RDD (ключ, значение) элементов. Ключи - это массивы NumPy. Массивы NumPy не являются хэшируемыми, и это вызывает проблему, когда я пытаюсь

1 ответ

Apache искра, имеющая дело с заявлениями случая

Я имею дело с преобразованием кода SQL в код PySpark и натолкнулся на некоторые операторы SQL. Я не знаю, как подойти к описанию случаев в pyspark? Я планиру...

1 ответ

Spark RDD: Как наиболее эффективно рассчитать статистику?

Предполагая существование RDD кортежей, подобных следующему:

2 ответа

Как я могу сохранить RDD в HDFS и позже прочитать его обратно?

3 ответа

Как рассчитать лучшее количество разделений для объединения?

Итак, я понимаю, что в целом следует использовать

1 ответ

Спасибо за быстрый и хороший ответ!

ли в Spark возможность повторно использовать кэшированный СДР в другом приложении (или при другом запуске того же приложения)?