Como o Spark DataFrame lida com o Pandas DataFrame que é maior que a memória

Question

Oct 29, 2015, 05:21 PM

pandas hdf5 apache-spark dataframe apache-spark-sql

Como o Spark DataFrame lida com o Pandas DataFrame que é maior que a memória

Estou aprendendo o Spark agora e parece ser a solução de big data para o Pandas Dataframe, mas tenho essa pergunta que me deixa insegura.

Atualmente, estou armazenando quadros de dados do Pandas maiores que a memória usando o HDF5. O HDF5 é uma ótima ferramenta que me permite dividir o dataframe do pandas. Portanto, quando eu precisar fazer o processamento em um dataframe grande do Pandas, o farei em pedaços. Mas o Pandas não suporta processamento distribuído e o HDF5 é apenas para um único ambiente de PC.

Usar o quadro de dados Spark pode ser a solução, mas meu entendimento do Spark é que o quadro de dados deve poder caber na memória e, uma vez carregado como um quadro de dados Spark, o Spark distribuirá o quadro de dados aos diferentes trabalhadores para executar o processamento distribuído.

Meu entendimento está correto? Se for esse o caso, como o Spark lida com um dataframe maior que a memória? Ele suporta chunking, como HDF5?