Пожалуйста, прочитайте вопрос. ОП уже использовал кластерный дампер.

Question

Apr 27, 2011, 03:52 PM

Пожалуйста, прочитайте вопрос. ОП уже использовал кластерный дампер.

устил кластеризационный тест на просканированных страницах (более 25 тыс. Документов; набор личных данных). Я сделал кластерный дамп:

$MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt

Вывод после запуска дампера кластера показан 25 элементами "VL-xxxxx {}":

VL-24130{n=1312 c=[0:0.017, 10:0.007, 11:0.005, 14:0.017, 31:0.016, 35:0.006, 41:0.010, 43:0.008, 52:0.005, 59:0.010, 68:0.037, 72:0.056, 87:0.028, ... ] r=[0:0.442, 10:0.271, 11:0.198, 14:0.369, 31:0.421, ... ]}
...
VL-24868{n=311 c=[0:0.042, 11:0.016, 17:0.046, 72:0.014, 96:0.044, 118:0.015, 135:0.016, 195:0.017, 318:0.040, 319:0.037, 320:0.036, 330:0.030, ...] ] r=[0:0.740, 11:0.287, 17:0.576, 72:0.239, 96:0.549, 118:0.273, ...]}

Как интерпретировать этот вывод?

Короче говоря: я ищу идентификаторы документов, которые принадлежат к конкретному кластеру.

Каково значение :

VL-х?n = y c = [z: z ', ...]r = [z '': z '' ', ...]

Означает ли 0: 0,017 «0» - это идентификатор документа, который принадлежит этому кластеру?

Я уже прочитал на вики-страницах о том, что означают CL, n, c и r. Но кто-то может объяснить мне их лучше или указывает на ресурс, где это объясняется немного подробнее?

Извините, если я задаю несколько глупых вопросов, но я новичок в Apache Mahout и использую его как часть моего курса для кластеризации.

Пожалуйста, прочитайте вопрос. ОП уже использовал кластерный дампер.

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Пожалуйста, прочитайте вопрос. ОП уже использовал кластерный дампер.

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы