Паркет против ORC против ORC с Снейппи

Я провожу несколько тестов форматов хранения, доступных в Hive, и использую Parquet и ORC в качестве основных опций. Я включил ORC один раз со сжатием по умолчанию и один раз со Snappy.

Я прочитал много документов, в которых говорится, что Parquet лучше по времени / пространственной сложности по сравнению с ORC, но мои тесты противоположны документам, которые я прошел.

Следует некоторые детали моих данных.

Table A- Text File Format- 2.5GB

Table B - ORC - 652MB

Table C - ORC with Snappy - 802MB

Table D - Parquet - 1.9 GB

Паркет был худшим с точки зрения сжатия для моего стола.

Мои тесты с приведенными выше таблицами дали следующие результаты.

Операция подсчета строк

Text Format Cumulative CPU - 123.33 sec

Parquet Format Cumulative CPU - 204.92 sec

ORC Format Cumulative CPU - 119.99 sec 

ORC with SNAPPY Cumulative CPU - 107.05 sec

Сумма операции столбца

Text Format Cumulative CPU - 127.85 sec   

Parquet Format Cumulative CPU - 255.2 sec   

ORC Format Cumulative CPU - 120.48 sec   

ORC with SNAPPY Cumulative CPU - 98.27 sec

Среднее по столбцу

Text Format Cumulative CPU - 128.79 sec

Parquet Format Cumulative CPU - 211.73 sec    

ORC Format Cumulative CPU - 165.5 sec   

ORC with SNAPPY Cumulative CPU - 135.45 sec 

Выбор 4 столбцов из заданного диапазона с помощью предложения where

Text Format Cumulative CPU -  72.48 sec 

Parquet Format Cumulative CPU - 136.4 sec       

ORC Format Cumulative CPU - 96.63 sec 

ORC with SNAPPY Cumulative CPU - 82.05 sec 

Означает ли это, что ORC быстрее, чем Parquet? Или есть что-то, что я могу сделать, чтобы оно работало лучше с временем ответа на запрос и степенью сжатия?

Спасибо!

Ответы на вопрос(5)

Ваш ответ на вопрос