Как преобразовать таблицу SQL объемом 500 ГБ в Apache Parquet?
Возможно, это хорошо задокументировано, но я очень запутался, как это сделать (есть много инструментов Apache).
Когда я создаю таблицу SQL, я создаю таблицу, используя следующие команды:
CREATE TABLE table_name(
column1 datatype,
column2 datatype,
column3 datatype,
.....
columnN datatype,
PRIMARY KEY( one or more columns )
);
Как преобразовать эту существующую таблицу в паркет? Этот файл записан на диск? Если исходные данные составляют несколько ГБ, сколько времени нужно ждать?
Могу ли я вместо этого отформатировать исходные необработанные данные в формат паркета?