Spark Lesen von Python3 Pickle als Eingabe

Meine Daten sind als Sätze von Python 3-Dateien verfügbar. Die meisten von ihnen sind Serialisierung von PandasDataFrames.

Ich würde gerne Spark verwenden, da ich mehr Arbeitsspeicher und CPU benötige, die ein Computer haben kann. Außerdem verwende ich HDFS für die verteilte Speicherung.

ls Anfänger habe ich keine relevanten Informationen zur Verwendung von pickle-Dateien als Eingabedatei gefunde

Gibt es das? Wenn nicht, gibt es eine Problemumgehung?

Danke vielmal

Antworten auf die Frage(2)

Ihre Antwort auf die Frage