Вот пример запроса Hive, который я выполняю. Вы можете видеть здесь 2 броска:

аюсь создать своего рода конвейер данных для переноса моих таблиц Hive в BigQuery. Hive работает на кластере Hadoop. Это мой текущий дизайн, на самом деле, это очень просто, это всего лишь сценарий оболочки:

для каждой таблицы source_hive_table {

INSERT таблица перезаписиtarget_avro_hive_table SELECT * FROM source_hive_table;Переместите полученные файлы avro в облачное хранилище Google, используяdistcpСоздать первую таблицу BQ:bq load --source_format=AVRO your_dataset.something something.avroОбрабатывайте любые проблемы приведения из самого BigQuery, поэтому выбирайте из только что написанной таблицы и обрабатывайте вручную все приведения

}

Как вы думаете, это имеет смысл? Есть ли лучший способ, возможно, с помощью Spark? Я не доволен тем, как я справляюсь с кастингом, я хотел бы избежать создания таблицы BigQuery дважды.

Ответы на вопрос(1)

Ваш ответ на вопрос