Duplikate aus einer großen Tabelle löschen
Ich habe eine ziemlich große Tabelle mit 19 000 000 Datensätzen und Probleme mit doppelten Zeilen. Selbst hier in SO gibt es viele ähnliche Fragen, aber keine davon scheint mir eine zufriedenstellende Antwort zu geben. Einige Punkte zu beachten:
Die Eindeutigkeit einer Zeile wird durch zwei Spalten bestimmt.location_id
unddatetime
.Ich möchte die Ausführungszeit so kurz wie möglich halten (<1 Stunde).Das Kopieren von Tabellen ist nicht sehr einfach, da die Tabelle mehrere Gigabyte groß ist.Keine Notwendigkeit, sich um Beziehungen zu sorgen.Wie gesagt, jederlocation_id
kann nur einen Unterschied habendatetime
, und ich möchte alle doppelten Instanzen entfernen. Es spielt keine Rolle, welcher von ihnen überlebt, da die Daten identisch sind.
Irgendwelche Ideen?