wie man ähnliche Wörter mit unterschiedlichen Schreibweisen erkennt

Question

Jun 22, 2010, 09:58 AM

wie man ähnliche Wörter mit unterschiedlichen Schreibweisen erkennt

Ich möchte doppelte Kundennamen aus einer Datenbank herausfiltern. Ein einzelner Kunde kann mehr als einen Eintrag mit demselben Namen, jedoch mit geringen Unterschieden in der Schreibweise, im System haben. Hier ist ein Beispiel: Ein Kunde namens Brook hat möglicherweise drei Einträge mit diesen Variationen im System:

Brook BertaBruck BertaBiruk Berta

Nehmen wir an, wir schreiben diesen Namen in eine Datenbankspalte. Ich würde gerne die verschiedenen Mechanismen kennen lernen, um solche Duplikate beispielsweise aus 100.000 Datensätzen zu identifizieren. Wir können reguläre Ausdrücke in C # verwenden, um alle Datensätze oder andere Mustervergleichsverfahren zu durchlaufen, oder wir können diese Datensätze in das exportieren, was für solche Abfragen am besten geeignet ist (SQL mit Funktionen für reguläre Ausdrücke).

Das ist, was ich als Lösung gedacht habe

Schreibe einen C # -Code, um jeden Datensatz zu durchlaufenHol nur die Konsonantenbuchstaben in der richtigen Reihenfolge (im obigen Fall: BrKBrt)Suchen Sie nach dem gleichen Konsonantenmuster in den anderen Datensätzen unter Berücksichtigung von ähnlich klingenden Buchstaben wie (C, K) (C, S), (F, PH)

So leiten Sie bitte irgendwelche Ideen.