Migrar tabla de colmena a Google BigQuery

Estoy tratando de diseñar una especie de canalización de datos para migrar mis tablas de Hive a BigQuery. Hive se ejecuta en un clúster Hadoop on premise. Este es mi diseño actual, en realidad, es muy fácil, es solo un script de shell:

para cada tabla source_hive_table {

INSERTAR sobrescribir tablatarget_avro_hive_table SELECT * FROM source_hive_table;Mueva los archivos avro resultantes al almacenamiento en la nube de google usandodistcpCrear la primera tabla BQ:bq load --source_format=AVRO your_dataset.something something.avroManeje cualquier problema de transmisión desde BigQuery, así que seleccione de la tabla que acaba de escribir y maneje manualmente cualquier transmisión

}

¿Crees que tiene sentido? ¿Hay alguna manera mejor, tal vez usando Spark? No estoy contento con la forma en que estoy manejando el casting, me gustaría evitar crear la tabla BigQuery dos veces.

Respuestas a la pregunta(1)

Su respuesta a la pregunta