Результаты поиска по запросу "mahout"

1 ответ

Mahout строкаСходство

Я пытаюсь вычислить сходство строк между документами Википедии. У меня есть векторы TF-IDF в форматеKey class: class org.apache.hadoop.io.Text Value Class: class org.apache.mahout.math.VectorWritable, Я следую за быстрым туром анализа текста ...

2 ответа

Почему нормализация вектора может повысить точность кластеризации и классификации?

В Mahout in Action описано, что нормализация может немного повысить точность. Может кто-нибудь объяснить причину, спасибо!

2 ответа

Почему нормализация вектора может повысить точность кластеризации и классификации?

В Mahout in Action описано, что нормализация может немного повысить точность. Может кто-нибудь объяснить причину, спасибо!

ТОП публикаций

1 ответ

Как я могу использовать код API последовательности файлов Mahout?

В Mahout существует команда для создания файла последовательности в виде

1 ответ

Кластеризация - разреженный вектор и плотный вектор

4 ответа

Пожалуйста, прочитайте вопрос. ОП уже использовал кластерный дампер.

устил кластеризационный тест на просканированных страницах (более 25 тыс. Документов; набор личных данных). Я сделал кластерный дамп: $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txtВывод после ...

3 ответа

С этим подходом вы можете оценить, какая часть вашей памяти обработки исчерпана и где вам нужно увеличить.

ускаю NaiveBayes на множестве твитов, используя Mahout. Два файла, один 100 МБ и один 300 МБ. Я изменил JAVA_HEAP_MAX на JAVA_HEAP_MAX = -Xmx2000m (ранее это было 1000). Но даже тогда mahout работал в течение нескольких часов (2, если быть ...

1 ответ

Стратегия кандидата для GenericUserBasedRecommender в Mahout

В mahout вы можете определитьCandidateItemsStrategy заGenericItemBasedRecommender так что конкретные предметы, например определенной категории исключены. При использованииGenericUserBasedRecommender это невозможно. Как я могу сделать это ...

2 ответа

Полное использование всех ядер в псевдораспределенном режиме Hadoop

Я запускаю задачу в псевдораспределенном режиме на своем 4-ядерном ноутбуке. Как я могу обеспечить эффективное использование всех ядер? В настоящее время мой трекер работы показывает, что одновременно выполняется только одна работа. Означает ли ...

2 ответа

В чем разница между основанной на элементах и основанной на контенте совместной фильтрацией?

Я озадачен тем, что является рекомендацией на основе предметов, как описано в книге "Махут в действии ", В книге есть алгоритм: