Пожалуйста, прочитайте вопрос. ОП уже использовал кластерный дампер.

устил кластеризационный тест на просканированных страницах (более 25 тыс. Документов; набор личных данных). Я сделал кластерный дамп:

$MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt

Вывод после запуска дампера кластера показан 25 элементами "VL-xxxxx {}":

VL-24130{n=1312 c=[0:0.017, 10:0.007, 11:0.005, 14:0.017, 31:0.016, 35:0.006, 41:0.010, 43:0.008, 52:0.005, 59:0.010, 68:0.037, 72:0.056, 87:0.028, ... ] r=[0:0.442, 10:0.271, 11:0.198, 14:0.369, 31:0.421, ... ]}
...
VL-24868{n=311 c=[0:0.042, 11:0.016, 17:0.046, 72:0.014, 96:0.044, 118:0.015, 135:0.016, 195:0.017, 318:0.040, 319:0.037, 320:0.036, 330:0.030, ...] ] r=[0:0.740, 11:0.287, 17:0.576, 72:0.239, 96:0.549, 118:0.273, ...]}

Как интерпретировать этот вывод?

Короче говоря: я ищу идентификаторы документов, которые принадлежат к конкретному кластеру.

Каково значение :

VL-х?n = y c = [z: z ', ...]r = [z '': z '' ', ...]

Означает ли 0: 0,017 «0» - это идентификатор документа, который принадлежит этому кластеру?

Я уже прочитал на вики-страницах о том, что означают CL, n, c и r. Но кто-то может объяснить мне их лучше или указывает на ресурс, где это объясняется немного подробнее?

Извините, если я задаю несколько глупых вопросов, но я новичок в Apache Mahout и использую его как часть моего курса для кластеризации.

Ответы на вопрос(4)

Ваш ответ на вопрос