Результаты поиска по запросу "rdd"

2 ответа

pyspark: объект PipelinedRDD не повторяется

Я получаю эту ошибку, но я не знаю почему. В основном я ошибаюсь из этого кода:

1 ответ

Как преобразовать RDD [Row] обратно в DataFrame [duplicate]

На этот вопрос уже есть ответ здесь:Как преобразовать объект rdd в dataframe в спарк 10 ответовЯ играл с преобразованием RDD в DataFrames и обратно. Во-первы...

1 ответ

Получить максимальное значение для каждого ключа в Spark RDD

Каков наилучший способ вернуть максимальную строку (значение), связанную с каждым уникальным ключом в искровой СДР?Я использую Python, и я пробовал Math Max,...

ТОП публикаций

2 ответа

Сколько разделов создает Spark, когда файл загружается из корзины S3?

Если файл загружен из HDFS по умолчанию, spark создает один раздел на блок. Но как спарк определяет разделы, когда файл загружается из корзины S3?

2 ответа

Spark: разница при чтении в .gz и .bz2

2 ответа

Сравнение двух СДР

1 ответ

java.io.NotSerializableException в потоковой передаче Spark с включенной контрольной точкой

код ниже:

1 ответ

Чтение нескольких файлов, сжатых в архиве tar.gz в Spark [дубликат]

На этот вопрос уже есть ответ здесь:Читайте целые текстовые файлы из сжатия в Spark 2 ответаЯ пытаюсь создать Spark RDD из нескольких файлов json, сжатых в t...

1 ответ

Spark: сохранение RDD по уже существующему пути в HDFS

Я могу сохранить вывод RDD в HDFS сsaveAsTextFile метод. Этот метод вызывает исключение, если путь к файлу уже существует.У меня есть случай, когда мне нужно...

1 ответ

как объединить 3 пары RDD

У меня какое-то сложное требование1) 1) для Pinterest