Как Spark DataFrame обрабатывает Pandas DataFrame, который больше, чем память

Сейчас я изучаю Spark, и, похоже, это решение для больших данных для Pandas Dataframe, но у меня есть этот вопрос, который заставляет меня сомневаться.

В настоящее время я храню кадры данных Pandas, которые больше, чем память, используя HDF5. HDF5 - это отличный инструмент, который позволяет мне разбивать данные на фреймы панд. Поэтому, когда мне нужно выполнить обработку на большом фрейме данных Pandas, я буду делать это частями. Но Pandas не поддерживает распределенную обработку, а HDF5 предназначен только для одной среды ПК.

Использование Spark DataFrame может быть решением, но мое понимание Spark заключается в том, что DataFrame должен умещаться в памяти, и после загрузки в качестве Spark DataFrame Spark будет распределять эти кадры среди разных работников для выполнения распределенной обработки.

Правильно ли мое понимание? Если это так, то как Spark обрабатывает фрейм данных, который больше памяти? Поддерживает ли он чанкинг, как HDF5?

Ответы на вопрос(1)

Ваш ответ на вопрос