scikit-узнать, как узнать документы в кластере?

Question

Jul 22, 2013, 03:07 PM

Я новичок в Python и Scikit-Learn, поэтому, пожалуйста, потерпите меня.

Я взял этот исходный код для k означает алгоритм кластеризации изk означает кластеризацию.

Затем я изменил свой локальный набор, используя функцию load_file.

Хотя алгоритм завершается, но он не производит никакого вывода, например, какие документы сгруппированы вместе.

Я обнаружил, что у объекта km есть массив km.label, в котором указан идентификатор центроида каждого документа.

У этого также есть вектор центроида с "km.cluster_centers_"

Но что это за документ? Я должен сопоставить его с набором данных, который является объектом «Связка».

Если я печатаю dataset.data [0], я получаю данные первого файла, которые, я думаю, перемешиваются. но я просто хочу знать имя.

Меня смущают такие вопросы, как документ в dataset.data [0] сгруппирован в centoid в km.label [0]?

Моя основная проблема состоит в том, чтобы найти, какие файлы сгруппированы вместе. Как найти это?

Ответы на вопрос(2)