Результаты поиска по запросу "rdd"
Как заставить Spark оценивать операции DataFrame inline
СогласноSpark RDD документы [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: > Все преобразования в Spark являются ленивыми, поскольку они не сразу вычисляют свои результаты ... Такая конструкция позволяет Spark ...
Исключение при доступе к KafkaOffset из RDD
У меня есть потребитель Spark, который течет из Кафки. Я пытаюсь управлять смещениями для семантики, выполняемой ровно один раз.Однако при доступе к смещению...
Сохраняет ли spark все элементы RDD [K, V] для определенного ключа в одном разделе после «groupByKey», даже если данные для ключа очень большие?
Считайте, что у меня есть PairedRDD, скажем, 10 разделов. Но ключи распределены неравномерно, то есть все 9 разделов с данными принадлежат одному ключу, скажем
Spark: Как уменьшить «ByByKey», когда ключи являются массивами, которые не могут быть хэшируемыми?
У меня есть RDD (ключ, значение) элементов. Ключи - это массивы NumPy. Массивы NumPy не являются хэшируемыми, и это вызывает проблему, когда я пытаюсь
Apache искра, имеющая дело с заявлениями случая
Я имею дело с преобразованием кода SQL в код PySpark и натолкнулся на некоторые операторы SQL. Я не знаю, как подойти к описанию случаев в pyspark? Я планиру...
Spark RDD: Как наиболее эффективно рассчитать статистику?
Предполагая существование RDD кортежей, подобных следующему:
Как рассчитать лучшее количество разделений для объединения?
Итак, я понимаю, что в целом следует использовать
Спасибо за быстрый и хороший ответ!
ли в Spark возможность повторно использовать кэшированный СДР в другом приложении (или при другом запуске того же приложения)?