Eliminar registros duplicados en una tabla de BigQuery
Estoy planeando agregar datos incrementales diariamente a una tabla de BigQuery. Cada vez que agrego datos incrementales a la tabla existente, quiero eliminar registros duplicados (basados en una columna de clave principal) de los datos existentes en la tabla. Un enfoque sería:
Recoge el conjunto de claves de los datos incrementales (llamémosloINCR_KEYS
)Ejecutar una consulta en las líneas de -SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS)
- y almacenar los resultados en una nueva tabla.Agregue los datos incrementales a la nueva tabla.Mi preocupación con este enfoque es que crea una copia duplicada de una gran mesa y se suma a mis facturas.
¿Hay una mejor manera de lograr lo mismo sin crear una tabla duplicada?