Как работает кластеризация (особенно кластеризация строк)?
Я слышал о кластеризации для группировки похожих данных. Я хочу знать, как это работает в конкретном случае для String.
У меня есть таблица с более чем 100 000 разных слов.
Я хочу идентифицировать одно и то же слово с некоторыми отличиями (например:house, house!!, hooouse, HoUse, @house, "house", etc...
).
Что необходимо для определения сходства и группировки каждого слова в кластере? Какой алгоритм больше для этого рекомендуется?