Spark читает Python3 Pickle в качестве входных данных
Мои данные доступны в виде наборов маринованных файлов Python 3. Большинство из них - сериализация пандDataFrames
.
Я хотел бы начать использовать Spark, потому что мне нужно больше памяти и процессора, чем может иметь один компьютер. Также я буду использовать HDFS для распределенного хранилища.
Как новичок, я не нашел соответствующей информации, объясняющей, как использовать файлы консервирования в качестве входного файла.
Это существует? Если нет, есть ли обходной путь?
большое спасибо