Excluindo duplicatas de uma tabela grande

Question

Mar 05, 2010, 11:13 AM

Excluindo duplicatas de uma tabela grande

Eu tenho uma tabela bastante grande com 19.000.000 de registros e tenho problemas com linhas duplicadas. Há muitas perguntas semelhantes até aqui no SO, mas nenhuma delas parece me dar uma resposta satisfatória. Alguns pontos a considerar:

A exclusividade da linha é determinada por duas colunas,location_id edatetime.Eu gostaria de manter o tempo de execução o mais rápido possível (<1 hora).Copiar tabelas não é muito viável, pois a tabela possui vários gigabytes de tamanho.Não precisa se preocupar com relações.

Como dito, todolocation_id pode ter apenas um distintodatetime, e gostaria de remover todas as instâncias duplicadas. Não importa qual deles sobrevive, pois os dados são idênticos.

Alguma ideia?