Migrar a tabela de seção para o Google BigQuery
Estou tentando criar um tipo de pipeline de dados para migrar minhas tabelas do Hive para o BigQuery. O Hive está sendo executado em um cluster do Hadoop no local. Este é o meu design atual, na verdade, é muito fácil, é apenas um script de shell:
para cada tabela source_hive_table {
INSERIR substituir tabelatarget_avro_hive_table
SELECT * FROM source_hive_table;
Mova os arquivos avro resultantes para o armazenamento na nuvem do Google usandodistcp
Crie a primeira tabela BQ:bq load --source_format=AVRO your_dataset.something something.avro
Lide com qualquer problema de transmissão do próprio BigQuery, portanto, selecione na tabela que acabou de escrever e manipule manualmente qualquer transmissão}
Você acha que faz sentido? Existe alguma maneira melhor, talvez usando o Spark? Não estou feliz com a maneira como estou lidando com a transmissão. Gostaria de evitar a criação da tabela BigQuery duas vezes.