Hive: лучший способ делать инкрементальные обновления на главной таблице

Итак, у меня есть основная таблица в Hive, в которой будут храниться все мои данные.

Я хочу, чтобы можно было загружать инкрементное обновление данных примерно каждый месяц с большим объемом данных, пара миллиардов строк. Будут новые данные, а также обновленные записи.

Как лучше всего подойти к этому, я знаю, что Hive недавно обновил и поддерживает обновление / вставку / удаление.

Я думал о том, чтобы как-то найти записи, которые будут обновлены, удалить их из основной таблицы, а затем просто вставить новое инкрементное обновление. Однако после этого вставки выполняются очень быстро, а удаления - очень медленные.

Другой способ - это сделать что-то, используя оператор update, чтобы сопоставить значения ключей из основной таблицы и инкрементное обновление и обновить их поля. Я еще не пробовал это. Это также звучит мучительно медленно, поскольку Hive придется обновлять каждую запись 1 на 1.

Кто-нибудь получил какие-либо идеи относительно того, как сделать это наиболее эффективно и результативно? Я довольно новичок в Hive и базах данных в целом.

Ответы на вопрос(1)

Ваш ответ на вопрос