Загрузка куста в секционированную таблицу
У меня есть файл журнала в HDFS, значения разделены запятой. Например
2012-10-11 12:00,opened_browser,userid111,deviceid222
Теперь я хочу загрузить этот файл в таблицу Hive, в которой есть столбцы "timestamp", "action" и разделены на "userid", "deviceid". Как я могу попросить Hive взять последние 2 столбца в файле журнала как раздел для таблицы? Все примерыe.g. "hive> LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');"
требует определения разделов в скрипте, но я хочу, чтобы разделы устанавливались автоматически из файла HDFS.
Единственное решение - создать промежуточную неразделенную таблицу со всеми четырьмя столбцами, заполнить ее из файла и затем создатьINSERT into first_table PARTITION (userid,deviceid) select from intermediate_table timestamp,action,userid,deviceid;
но это и дополнительная задача, и у нас будет 2 очень похожих таблицы. Или мы должны создать внешнюю таблицу как промежуточную.