Nov 19, 2011, 07:48 PM

cluster-analysis string data-mining

Как работает кластеризация (особенно кластеризация строк)?

Я слышал о кластеризации для группировки похожих данных. Я хочу знать, как это работает в конкретном случае для String.

У меня есть таблица с более чем 100 000 разных слов.

Я хочу идентифицировать одно и то же слово с некоторыми отличиями (например:house, house!!, hooouse, HoUse, @house, "house", etc...).

Что необходимо для определения сходства и группировки каждого слова в кластере? Какой алгоритм больше для этого рекомендуется?

Ответы на вопрос(3)

Популярные вопросы

0 ответов

Генерация Java-класса из XML-файла с использованием XStream

0 ответов

Как отобразить представление ZF2 в ответе JSON?

0 ответов

sqlalchemy: получить строки, затронутые массовым удалением

0 ответов

Вращение легенды или добавление патча к метке оси в matplotlib

0 ответов

Сортировка Java: сортировка массива объектов по свойству, объект не может использоваться Comparable