É possível importar dados para a tabela Hive sem copiar os dados
Eu tenho arquivos de log armazenados como texto no HDFS. Quando eu carregar os arquivos de log em uma tabela Hive, todos os arquivos são copiados.
Posso evitar que todos os meus dados de texto sejam armazenados duas vezes?
EDIT: eu carrego através do seguinte comando
LOAD DATA INPATH '/user/logs/mylogfile' INTO TABLE `sandbox.test` PARTITION (day='20130221')
Então, posso encontrar exatamente o mesmo arquivo em:
/user/hive/warehouse/sandbox.db/test/day=20130220
Eu assumi que foi copiado.