Результаты поиска по запросу "rdd"
Spark - самый быстрый способ создания RDD-массивов
Мое искровое приложение использует RDD-массивы.На данный момент я читаю свои данные из AWS S3, и они представлены в виде простого текстового файла, где кажда...
Возврат RDD с наибольшим значением N из другого RDD в SPARK
Я пытаюсь отфильтровать RDD кортежей, чтобы получить наибольшее N кортежей на основе значений ключей. Мне нужен формат возврата, чтобы быть RDD.Итак, СДР:
Переполнение стека из-за длинного RDD Lineage
У меня есть тысячи маленьких файлов в HDFS. Необходимо обработать немного меньшее подмножество файлов (а это опять-таки тысячи), fileList содержит список пут...
Схема разбиения по умолчанию в Spark
Когда я выполняю нижеприведенную команду:
Что означает «этап пропущен» в веб-интерфейсе Apache Spark?
Из моего интерфейса Spark. Что значит пропущенный?
Задание Spark Mlib FPGrowth завершается с ошибкой памяти
У меня довольно простой вариант использования, но потенциально очень большой набор результатов. Мой код выполняет следующие действия (в оболочке pyspark):
Как сгладить вложенные списки в PySpark?
У меня есть структура RDD, как: