Результаты поиска по запросу "rdd"

3 ответа

Spark - самый быстрый способ создания RDD-массивов

Мое искровое приложение использует RDD-массивы.На данный момент я читаю свои данные из AWS S3, и они представлены в виде простого текстового файла, где кажда...

0 ответов

Spark: недостаточно места для кэширования красного в контейнере, но при этом остается много общего объема памяти

2 ответа

Возврат RDD с наибольшим значением N из другого RDD в SPARK

Я пытаюсь отфильтровать RDD кортежей, чтобы получить наибольшее N кортежей на основе значений ключей. Мне нужен формат возврата, чтобы быть RDD.Итак, СДР:

ТОП публикаций

8 ответов

Что такое СДР в искре

1 ответ

Переполнение стека из-за длинного RDD Lineage

У меня есть тысячи маленьких файлов в HDFS. Необходимо обработать немного меньшее подмножество файлов (а это опять-таки тысячи), fileList содержит список пут...

1 ответ

Схема разбиения по умолчанию в Spark

Когда я выполняю нижеприведенную команду:

1 ответ

Что означает «этап пропущен» в веб-интерфейсе Apache Spark?

Из моего интерфейса Spark. Что значит пропущенный?

1 ответ

Задание Spark Mlib FPGrowth завершается с ошибкой памяти

У меня довольно простой вариант использования, но потенциально очень большой набор результатов. Мой код выполняет следующие действия (в оболочке pyspark):

1 ответ

Как сгладить вложенные списки в PySpark?

У меня есть структура RDD, как:

1 ответ

Фильтрация RDD на основе условий и извлечения совпавших данных в Python Spark

У меня есть данные, как,