¿Cómo maneja Spark DataFrame el Pandas DataFrame que es más grande que la memoria?

Question

Oct 29, 2015, 05:21 PM

apache-spark apache-spark-sql dataframe hdf5 pandas

¿Cómo maneja Spark DataFrame el Pandas DataFrame que es más grande que la memoria?

Ahora estoy aprendiendo Spark, y parece ser la solución de Big Data para Pandas Dataframe, pero tengo esta pregunta que me hace inseguro.

Actualmente estoy almacenando marcos de datos Pandas que son más grandes que la memoria usando HDF5. HDF5 es una gran herramienta que me permite fragmentar el marco de datos de los pandas. Entonces, cuando necesito hacer el procesamiento en un gran marco de datos de Pandas, lo haré en trozos. Pero Pandas no admite el procesamiento distribuido y HDF5 es solo para un solo entorno de PC.

El uso del marco de datos de Spark puede ser una solución, pero mi comprensión de Spark es que el marco de datos debe poder caber en la memoria, y una vez cargado como un marco de datos de Spark, Spark distribuirá el marco de datos a los diferentes trabajadores para hacer el procesamiento distribuido.

¿Es correcto mi entendimiento? Si este es el caso, ¿cómo maneja Spark un marco de datos que es más grande que la memoria? ¿Soporta fragmentación, como HDF5?