Eliminar duplicados de una tabla grande
Tengo una tabla bastante grande con 19 000 000 de registros, y tengo problemas con las filas duplicadas. Hay muchas preguntas similares incluso aquí en SO, pero ninguna de ellas parece darme una respuesta satisfactoria. Algunos puntos a considerar:
La unicidad de fila está determinada por dos columnas,location_id
ydatetime
.Me gustaría mantener el tiempo de ejecución lo más rápido posible (<1 hora).Copiar tablas no es muy factible ya que la tabla tiene varios gigabytes de tamaño.No hay que preocuparse por las relaciones.Como se dijo, cadalocation_id
solo puede tener uno distintodatetime
, y me gustaría eliminar todas las instancias duplicadas. No importa cuál de ellos sobreviva, ya que los datos son idénticos.
¿Algunas ideas?