Кластеризация текста с расстояниями Левенштейна

У меня есть набор (2k - 4k) небольших строк (3-6 символов), и я хочу их кластеризовать. Поскольку я использую строки, предыдущие ответы наКак работает кластеризация (особенно кластеризация строк)?, сообщил мне, чтоРасстояние Левенштейна хорошо использовать в качестве функции расстояния для строк. Кроме того, так как я не знаю заранее количество кластеров,иерархическая кластеризация это путь, а не к-значит.

Хотя я понимаю проблему в ее абстрактной форме, я не знаю, как проще всего это сделать. Например, является ли MATLAB или R лучшим выбором для фактической реализации иерархической кластеризации с пользовательской функцией (расстояние Левенштейна). Для обоих программ можно легко найти реализацию расстояния Левенштейна. Кластерная часть кажется более сложной. НапримерКластеризация текста в MATLAB вычисляет массив расстояний для всех строк, но я не могу понять, как использовать массив расстояний для фактической кластеризации. Можете ли вы, гуру, показать мне, как реализовать иерархическую кластеризацию в MATLAB или R с помощью пользовательской функции?

Ответы на вопрос(4)

Ваш ответ на вопрос