Wie verarbeitet Spark DataFrame Pandas DataFrame, der größer als der Speicher ist

Question

Oct 29, 2015, 05:21 PM

pandas dataframe apache-spark-sql apache-spark hdf5

Wie verarbeitet Spark DataFrame Pandas DataFrame, der größer als der Speicher ist

Ich lerne gerade Spark und es scheint die Big-Data-Lösung für Pandas Dataframe zu sein, aber ich habe diese Frage, die mich unsicher macht.

Gegenwärtig speichere ich Pandas-Datenrahmen, die größer als der Speicher sind, mit HDF5. HDF5 ist ein großartiges Tool, mit dem ich den Pandas-Datenrahmen aufteilen kann. Wenn ich also große Pandas-Datenframes verarbeiten muss, mache ich das in Stücken. Pandas unterstützt jedoch keine verteilte Verarbeitung und HDF5 ist nur für eine einzelne PC-Umgebung geeignet.

Die Verwendung von Spark-Datenrahmen ist möglicherweise eine Lösung, aber nach meinem Verständnis von Spark muss der Datenrahmen in der Lage sein, in den Speicher zu passen. Sobald er als Spark-Datenrahmen geladen ist, verteilt Spark den Datenrahmen an die verschiedenen Worker, um die verteilte Verarbeitung durchzuführen.

Ist mein Verständnis korrekt? Wenn dies der Fall ist, wie geht Spark dann mit einem Datenrahmen um, der größer als der Speicher ist? Unterstützt es Chunking wie HDF5?