Spark читает Python3 Pickle в качестве входных данных

Мои данные доступны в виде наборов маринованных файлов Python 3. Большинство из них - сериализация пандDataFrames.

Я хотел бы начать использовать Spark, потому что мне нужно больше памяти и процессора, чем может иметь один компьютер. Также я буду использовать HDFS для распределенного хранилища.

Как новичок, я не нашел соответствующей информации, объясняющей, как использовать файлы консервирования в качестве входного файла.

Это существует? Если нет, есть ли обходной путь?

большое спасибо

Ответы на вопрос(1)

Ваш ответ на вопрос