Spark читает Python3 Pickle в качестве входных данных

Question

Mar 26, 2016, 09:56 AM

python pyspark serialization apache-spark rdd

Spark читает Python3 Pickle в качестве входных данных

Мои данные доступны в виде наборов маринованных файлов Python 3. Большинство из них - сериализация пандDataFrames.

Я хотел бы начать использовать Spark, потому что мне нужно больше памяти и процессора, чем может иметь один компьютер. Также я буду использовать HDFS для распределенного хранилища.

Как новичок, я не нашел соответствующей информации, объясняющей, как использовать файлы консервирования в качестве входного файла.

Это существует? Если нет, есть ли обходной путь?

большое спасибо

Spark читает Python3 Pickle в качестве входных данных

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Spark читает Python3 Pickle в качестве входных данных

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы