Как работает кластеризация (особенно кластеризация строк)?

Я слышал о кластеризации для группировки похожих данных. Я хочу знать, как это работает в конкретном случае для String.

У меня есть таблица с более чем 100 000 разных слов.

Я хочу идентифицировать одно и то же слово с некоторыми отличиями (например:house, house!!, hooouse, HoUse, @house, "house", etc...).

Что необходимо для определения сходства и группировки каждого слова в кластере? Какой алгоритм больше для этого рекомендуется?

Ответы на вопрос(3)

Ваш ответ на вопрос