Spark Lesen von Python3 Pickle als Eingabe
Meine Daten sind als Sätze von Python 3-Dateien verfügbar. Die meisten von ihnen sind Serialisierung von PandasDataFrames
.
Ich würde gerne Spark verwenden, da ich mehr Arbeitsspeicher und CPU benötige, die ein Computer haben kann. Außerdem verwende ich HDFS für die verteilte Speicherung.
ls Anfänger habe ich keine relevanten Informationen zur Verwendung von pickle-Dateien als Eingabedatei gefunde
Gibt es das? Wenn nicht, gibt es eine Problemumgehung?
Danke vielmal