, которая позволяет сохранять информацию о разделении, но она является новой в 2.3 и все еще экспериментальной.

Spark 2.2.0, работает на EMR.

У меня большой датафреймdf (40G или около того в сжатых файлах Snappy), который разделен по ключамk1 а такжеk2.

Когда я запрашиваюk1 ===v1 или же (k1 ===v1 &&k2 ===v2`), я вижу, что он запрашивает только файлы в разделе (около 2% файлов).

Однако если якэш или жеупорствовать dfвдруг эти запросы бьютвсе разделы и либо взрывают память, либо намного менее производительны.

Это большой сюрприз - есть ли способ сделать кеширование, которое сохраняет разделенную информацию

Ответы на вопрос(1)

Ваш ответ на вопрос