Migrar a tabela de seção para o Google BigQuery

Question

Oct 26, 2017, 06:02 PM

hadoop google-cloud-platform hive google-bigquery

Migrar a tabela de seção para o Google BigQuery

Estou tentando criar um tipo de pipeline de dados para migrar minhas tabelas do Hive para o BigQuery. O Hive está sendo executado em um cluster do Hadoop no local. Este é o meu design atual, na verdade, é muito fácil, é apenas um script de shell:

para cada tabela source_hive_table {

INSERIR substituir tabelatarget_avro_hive_table SELECT * FROM source_hive_table;Mova os arquivos avro resultantes para o armazenamento na nuvem do Google usandodistcpCrie a primeira tabela BQ:bq load --source_format=AVRO your_dataset.something something.avroLide com qualquer problema de transmissão do próprio BigQuery, portanto, selecione na tabela que acabou de escrever e manipule manualmente qualquer transmissão

}

Você acha que faz sentido? Existe alguma maneira melhor, talvez usando o Spark? Não estou feliz com a maneira como estou lidando com a transmissão. Gostaria de evitar a criação da tabela BigQuery duas vezes.