Eliminar duplicados de una tabla grande

Question

Mar 05, 2010, 11:13 AM

Eliminar duplicados de una tabla grande

Tengo una tabla bastante grande con 19 000 000 de registros, y tengo problemas con las filas duplicadas. Hay muchas preguntas similares incluso aquí en SO, pero ninguna de ellas parece darme una respuesta satisfactoria. Algunos puntos a considerar:

La unicidad de fila está determinada por dos columnas,location_id ydatetime.Me gustaría mantener el tiempo de ejecución lo más rápido posible (<1 hora).Copiar tablas no es muy factible ya que la tabla tiene varios gigabytes de tamaño.No hay que preocuparse por las relaciones.

Como se dijo, cadalocation_id solo puede tener uno distintodatetime, y me gustaría eliminar todas las instancias duplicadas. No importa cuál de ellos sobreviva, ya que los datos son idénticos.

¿Algunas ideas?