Apr 12, 2018, 03:39 PM

, которая позволяет сохранять информацию о разделении, но она является новой в 2.3 и все еще экспериментальной.

Spark 2.2.0, работает на EMR.

У меня большой датафреймdf (40G или около того в сжатых файлах Snappy), который разделен по ключамk1 а такжеk2.

Когда я запрашиваюk1 ===v1 или же (k1 ===v1 &&k2 ===v2`), я вижу, что он запрашивает только файлы в разделе (около 2% файлов).

Однако если якэш или жеупорствовать dfвдруг эти запросы бьютвсе разделы и либо взрывают память, либо намного менее производительны.

Это большой сюрприз - есть ли способ сделать кеширование, которое сохраняет разделенную информацию

Ответы на вопрос(1)

Популярные вопросы

0 ответов

загрузить изображение в ImageView (Parse.com)

0 ответов

Член «уже объявлен» ошибка с CUDA и Eigen

0 ответов

Установка параметров по умолчанию для Qt Creator?

0 ответов

Генерация гистограммы для сильно искаженных данных

0 ответов

Где находится MsDeployPublish?