Результаты поиска по запросу "rdd"
pyspark: объект PipelinedRDD не повторяется
Я получаю эту ошибку, но я не знаю почему. В основном я ошибаюсь из этого кода:
Как преобразовать RDD [Row] обратно в DataFrame [duplicate]
На этот вопрос уже есть ответ здесь:Как преобразовать объект rdd в dataframe в спарк 10 ответовЯ играл с преобразованием RDD в DataFrames и обратно. Во-первы...
Получить максимальное значение для каждого ключа в Spark RDD
Каков наилучший способ вернуть максимальную строку (значение), связанную с каждым уникальным ключом в искровой СДР?Я использую Python, и я пробовал Math Max,...
Сколько разделов создает Spark, когда файл загружается из корзины S3?
Если файл загружен из HDFS по умолчанию, spark создает один раздел на блок. Но как спарк определяет разделы, когда файл загружается из корзины S3?
Чтение нескольких файлов, сжатых в архиве tar.gz в Spark [дубликат]
На этот вопрос уже есть ответ здесь:Читайте целые текстовые файлы из сжатия в Spark 2 ответаЯ пытаюсь создать Spark RDD из нескольких файлов json, сжатых в t...
Spark: сохранение RDD по уже существующему пути в HDFS
Я могу сохранить вывод RDD в HDFS сsaveAsTextFile метод. Этот метод вызывает исключение, если путь к файлу уже существует.У меня есть случай, когда мне нужно...
как объединить 3 пары RDD
У меня какое-то сложное требование1) 1) для Pinterest