Есть ли эффективный алгоритм нечеткой дедупликации списков строк? [Дубликат]

На этот вопрос уже есть ответ:

Дедупликация нечетких совпадений менее чем за экспоненциальное время? 6 ответов

Например, у меня есть длинный список строк, каждая строка имеет около 30-50 символов, и я хочу удалить строки, которые похожи на некоторые другие строки в этом списке (оставляя только одно вхождение из семейства дубликатов).

Я рассмотрел различные алгоритмы схожести строк, например, расстояние Левенштейна и метод, представленный вЭта стать. Они работают, но это мучительно медленно - лучший алгоритм, который я придумал, демонстрирует сложность O (n ^ 2) и занимает ~ 1,5 с для обработки списка с 3000 строками.

Есть ли какой-нибудь быстрый способ дедупликации этих списков?

Ответы на вопрос(2)

Ваш ответ на вопрос