Q-грамма приближенного соответствия оптимизаций

У меня есть таблица, содержащая 3 миллиона записей о людях, по которым я хочу выполнить нечеткое сопоставление, используя q-граммы (например, по фамилии). Я создал таблицу из 2 граммов, ссылающихся на это, но производительность поиска на этом объеме данных невелика (около 5 минут).

У меня в основном два вопроса: (1) Можете ли вы предложить какие-либо способы повышения производительности, чтобы избежать сканирования таблицы (т. Е. Необходимо учитывать общие q-граммы между строкой поиска и 3 миллионами фамилий) (2) С q-граммами, если A похож на B и C похож на B, это означает, что C похож на A?

С уважением

Петери»

Ответы на вопрос(4)

Ваш ответ на вопрос