Hive: a melhor maneira de fazer atualizações incrementais na tabela principal

Então, eu tenho uma tabela principal no Hive, ela armazenará todos os meus dados.

Quero poder carregar uma atualização incremental de dados todos os meses com uma grande quantidade de dados em alguns bilhões de linhas. Haverá novos dados, bem como entradas atualizadas.

Qual é a melhor maneira de abordar isso, eu sei que o Hive atualizou recentemente e suporta atualização / inserção / exclusão.

O que eu tenho pensado é encontrar de alguma forma as entradas que serão atualizadas e removê-las da tabela principal e, em seguida, basta inserir a nova atualização incremental. No entanto, depois de tentar isso, as inserções são muito rápidas, mas as exclusões são muito lentas.

A outra maneira é fazer algo usando a instrução update para corresponder aos valores-chave da tabela principal e a atualização incremental e atualizar seus campos. Ainda não tentei isso. Isso também parece dolorosamente lento, pois o Hive precisaria atualizar cada entrada 1 por 1.

Alguém tem alguma idéia de como fazer isso de forma mais eficiente e eficaz? Eu sou muito novo no Hive e bancos de dados em geral.

questionAnswers(1)

yourAnswerToTheQuestion