Eliminar registros duplicados en una tabla de BigQuery

Question

Sep 10, 2012, 09:15 AM

Eliminar registros duplicados en una tabla de BigQuery

Estoy planeando agregar datos incrementales diariamente a una tabla de BigQuery. Cada vez que agrego datos incrementales a la tabla existente, quiero eliminar registros duplicados (basados en una columna de clave principal) de los datos existentes en la tabla. Un enfoque sería:

Recoge el conjunto de claves de los datos incrementales (llamémosloINCR_KEYS)Ejecutar una consulta en las líneas de -SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS) - y almacenar los resultados en una nueva tabla.Agregue los datos incrementales a la nueva tabla.

Mi preocupación con este enfoque es que crea una copia duplicada de una gran mesa y se suma a mis facturas.

¿Hay una mejor manera de lograr lo mismo sin crear una tabla duplicada?