, которая позволяет сохранять информацию о разделении, но она является новой в 2.3 и все еще экспериментальной.
Spark 2.2.0, работает на EMR.
У меня большой датафреймdf
(40G или около того в сжатых файлах Snappy), который разделен по ключамk1
а такжеk2
.
Когда я запрашиваюk1
===v1
или же (k1
===v1
&&k2 ===
v2`), я вижу, что он запрашивает только файлы в разделе (около 2% файлов).
Однако если якэш или жеупорствовать df
вдруг эти запросы бьютвсе разделы и либо взрывают память, либо намного менее производительны.
Это большой сюрприз - есть ли способ сделать кеширование, которое сохраняет разделенную информацию