q-gram przybliżone optymalizacje dopasowania
Mam tabelę zawierającą 3 miliony rekordów osób, na których chcę wykonać rozmyte dopasowanie za pomocą q-gramów (na przykład na nazwisko). Stworzyłem tabelę z 2-gramowymi linkami do tego, ale wydajność wyszukiwania nie jest duża w przypadku tego woluminu danych (około 5 minut).
Zasadniczo mam dwa pytania: (1) Czy możesz zasugerować jakiekolwiek sposoby poprawy wydajności, aby uniknąć skanowania tabeli (tj. Konieczności liczenia wspólnych q-gramów między szukanym ciągiem a 3 milionami nazwisk) (2) Z q-gramami, jeśli A jest podobny do B i C jest podobny do B, czy to oznacza, że C jest podobny do A?
Z poważaniem
Piotr