Excluindo duplicatas de uma tabela grande
Eu tenho uma tabela bastante grande com 19.000.000 de registros e tenho problemas com linhas duplicadas. Há muitas perguntas semelhantes até aqui no SO, mas nenhuma delas parece me dar uma resposta satisfatória. Alguns pontos a considerar:
A exclusividade da linha é determinada por duas colunas,location_id
edatetime
.Eu gostaria de manter o tempo de execução o mais rápido possível (<1 hora).Copiar tabelas não é muito viável, pois a tabela possui vários gigabytes de tamanho.Não precisa se preocupar com relações.Como dito, todolocation_id
pode ter apenas um distintodatetime
, e gostaria de remover todas as instâncias duplicadas. Não importa qual deles sobrevive, pois os dados são idênticos.
Alguma ideia?