q-gram przybliżone optymalizacje dopasowania

Mam tabelę zawierającą 3 miliony rekordów osób, na których chcę wykonać rozmyte dopasowanie za pomocą q-gramów (na przykład na nazwisko). Stworzyłem tabelę z 2-gramowymi linkami do tego, ale wydajność wyszukiwania nie jest duża w przypadku tego woluminu danych (około 5 minut).

Zasadniczo mam dwa pytania: (1) Czy możesz zasugerować jakiekolwiek sposoby poprawy wydajności, aby uniknąć skanowania tabeli (tj. Konieczności liczenia wspólnych q-gramów między szukanym ciągiem a 3 milionami nazwisk) (2) Z q-gramami, jeśli A jest podobny do B i C jest podobny do B, czy to oznacza, że ​​C jest podobny do A?

Z poważaniem

Piotr

questionAnswers(4)

yourAnswerToTheQuestion