Вот пример запроса Hive, который я выполняю. Вы можете видеть здесь 2 броска:
аюсь создать своего рода конвейер данных для переноса моих таблиц Hive в BigQuery. Hive работает на кластере Hadoop. Это мой текущий дизайн, на самом деле, это очень просто, это всего лишь сценарий оболочки:
для каждой таблицы source_hive_table {
INSERT таблица перезаписиtarget_avro_hive_table
SELECT * FROM source_hive_table;
Переместите полученные файлы avro в облачное хранилище Google, используяdistcp
Создать первую таблицу BQ:bq load --source_format=AVRO your_dataset.something something.avro
Обрабатывайте любые проблемы приведения из самого BigQuery, поэтому выбирайте из только что написанной таблицы и обрабатывайте вручную все приведения}
Как вы думаете, это имеет смысл? Есть ли лучший способ, возможно, с помощью Spark? Я не доволен тем, как я справляюсь с кастингом, я хотел бы избежать создания таблицы BigQuery дважды.