Hive: лучший способ делать инкрементальные обновления на главной таблице
Итак, у меня есть основная таблица в Hive, в которой будут храниться все мои данные.
Я хочу, чтобы можно было загружать инкрементное обновление данных примерно каждый месяц с большим объемом данных, пара миллиардов строк. Будут новые данные, а также обновленные записи.
Как лучше всего подойти к этому, я знаю, что Hive недавно обновил и поддерживает обновление / вставку / удаление.
Я думал о том, чтобы как-то найти записи, которые будут обновлены, удалить их из основной таблицы, а затем просто вставить новое инкрементное обновление. Однако после этого вставки выполняются очень быстро, а удаления - очень медленные.
Другой способ - это сделать что-то, используя оператор update, чтобы сопоставить значения ключей из основной таблицы и инкрементное обновление и обновить их поля. Я еще не пробовал это. Это также звучит мучительно медленно, поскольку Hive придется обновлять каждую запись 1 на 1.
Кто-нибудь получил какие-либо идеи относительно того, как сделать это наиболее эффективно и результативно? Я довольно новичок в Hive и базах данных в целом.