Wie kann ich mithilfe der Levenshtein-Entfernung einen Schwellenwert für ähnliche Zeichenfolgen erstellen und Tippfehler berücksichtigen?

Wir sind kürzlich auf ein interessantes Problem gestoßen, bei dem wir doppelte, von Benutzern übermittelte Daten in unserer Datenbank entdeckt haben. Wir haben festgestellt, dass der Levenshtein-Abstand zwischen den meisten dieser Daten einfach der Unterschied zwischen den beiden fraglichen Zeichenfolgen ist. Das bedeutet, dass wir, wenn wir einfach Zeichen aus einer Zeichenfolge in die andere einfügen, am Ende dieselbe Zeichenfolge haben. Für die meisten Dinge scheint dies die beste Methode zu sein, um doppelte Elemente zu berücksichtigen.

Wir möchten auch Tippfehler berücksichtigen. Wir haben uns also Gedanken darüber gemacht, wie oft die Leute online Tippfehler pro Wort machen, und haben versucht, diese Daten innerhalb dieser Distanz zu verwenden. Wir konnten keine solche Statistik finden.

Gibt es eine Möglichkeit, Tippfehler bei der Erstellung eines solchen Schwellenwerts für eine Übereinstimmung von Daten zu berücksichtigen?

Lass mich wissen, ob ich das klären kann!

Antworten auf die Frage(4)

Ihre Antwort auf die Frage