Паркет против ORC против ORC с Снейппи
Я провожу несколько тестов форматов хранения, доступных в Hive, и использую Parquet и ORC в качестве основных опций. Я включил ORC один раз со сжатием по умолчанию и один раз со Snappy.
Я прочитал много документов, в которых говорится, что Parquet лучше по времени / пространственной сложности по сравнению с ORC, но мои тесты противоположны документам, которые я прошел.
Следует некоторые детали моих данных.
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
Паркет был худшим с точки зрения сжатия для моего стола.
Мои тесты с приведенными выше таблицами дали следующие результаты.
Операция подсчета строк
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
Сумма операции столбца
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
Среднее по столбцу
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
Выбор 4 столбцов из заданного диапазона с помощью предложения where
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
Означает ли это, что ORC быстрее, чем Parquet? Или есть что-то, что я могу сделать, чтобы оно работало лучше с временем ответа на запрос и степенью сжатия?
Спасибо!