q-Gramm ungefähre Anpassungsoptimierungen

Question

Dec 21, 2009, 08:28 AM

sql fuzzy-search fuzzy-comparison sql-server

q-Gramm ungefähre Anpassungsoptimierungen

Ich habe eine Tabelle mit 3 Millionen Personendatensätzen, für die ich mithilfe von Q-Gramm einen Fuzzy-Abgleich durchführen möchte (z. B. zum Nachnamen). Ich habe eine Tabelle mit 2 Gramm erstellt, die darauf verweist, aber die Suchleistung ist auf diesem Datenvolumen nicht besonders gut (ca. 5 Minuten).

Grundsätzlich habe ich zwei Fragen: (1) Können Sie Möglichkeiten vorschlagen, die Leistung zu verbessern, um einen Tabellenscan zu vermeiden (dh gemeinsame q-Gramme zwischen der Suchzeichenfolge und 3 Millionen Nachnamen zählen zu müssen). (2) Mit q-Gramme, wenn A ist ähnlich wie B und C ist ähnlich wie B, impliziert es, dass C ähnlich wie A ist?

Mit freundlichen Grüßen

Peter