Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive

Question

Jul 10, 2015, 03:03 PM

apache-spark-sql hadoop spark-dataframe hive apache-spark

Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive

Eu tenho um aplicativo de exemplo trabalhando para ler arquivos csv em um dataframe. O quadro de dados pode ser armazenado em uma tabela do Hive no formato parquet usando o métododf.saveAsTable(tablename,mode).

O código acima funciona bem, mas tenho tantos dados para cada dia que desejo particionar dinamicamente a tabela de seção com base na data de criação (coluna na tabela).

existe alguma maneira de particionar dinamicamente o quadro de dados e armazená-lo no hive warehouse. Deseja não codificar a instrução de inserção usandohivesqlcontext.sql(insert into table partittioin by(date)....).

A pergunta pode ser considerada como uma extensão para:Como salvar o DataFrame diretamente no Hive?

Qualquer ajuda é muito apreciada.