Результаты поиска по запросу "rdd"

Spark: недостаточно места для кэширования красного в контейнере, но при этом остается много общего объема памяти

apache-spark-2.0 spark-dataframe bigdata apache-spark

спасибо за любую помощь в решении этой проблемы

аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...

python apache-spark pyspark

0 ответов

и уверен, что вы знаете, что делаете при изменении кода: ваше редактирование испортило совершенно хороший ответ, в результате чего возникло исключение (восстановленное в оригинале OP) ...

ТОП публикаций

10 Food Delivery Startups to Watch for in 2020

7 Best Telemedicine Apps In 2020

How to Build a Live Streaming Video App and Reach Founder’s Zen

19 Tools And Resources to Build an MVP From Scratch

apache-spark scala

0 ответов

stackoverflow.com/questions/47867743/...

аюсь отфильтровать данные файла в хорошие и плохие данные за дату, поэтому получу 2 файла результатов. Из тестового файла первые 4 строки должны идти в хороших данных и последние 2 строки в плохих данных. У меня 2 вопроса Я не получаю хорошие ...

pyspark collect apache-spark

0 ответов

До вчерашнего дня все работало нормально. Не уверен, что является причиной этой ошибки. Скорее всего, некоторые настройки связаны. Как я могу это исправить?

аюсь запустить операцию сбора данных на СДР, созданную из Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Вот несколько наблюдений из obj_filter, obj_filter.show (3): +--------+----------+---------+ | ...

apache-spark dataframe

1 ответ