Результаты поиска по запросу "mahout"
Mahout строкаСходство
Я пытаюсь вычислить сходство строк между документами Википедии. У меня есть векторы TF-IDF в форматеKey class: class org.apache.hadoop.io.Text Value Class: class org.apache.mahout.math.VectorWritable, Я следую за быстрым туром анализа текста ...
Почему нормализация вектора может повысить точность кластеризации и классификации?
В Mahout in Action описано, что нормализация может немного повысить точность. Может кто-нибудь объяснить причину, спасибо!
Почему нормализация вектора может повысить точность кластеризации и классификации?
В Mahout in Action описано, что нормализация может немного повысить точность. Может кто-нибудь объяснить причину, спасибо!
Как я могу использовать код API последовательности файлов Mahout?
В Mahout существует команда для создания файла последовательности в виде
Пожалуйста, прочитайте вопрос. ОП уже использовал кластерный дампер.
устил кластеризационный тест на просканированных страницах (более 25 тыс. Документов; набор личных данных). Я сделал кластерный дамп: $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txtВывод после ...
С этим подходом вы можете оценить, какая часть вашей памяти обработки исчерпана и где вам нужно увеличить.
ускаю NaiveBayes на множестве твитов, используя Mahout. Два файла, один 100 МБ и один 300 МБ. Я изменил JAVA_HEAP_MAX на JAVA_HEAP_MAX = -Xmx2000m (ранее это было 1000). Но даже тогда mahout работал в течение нескольких часов (2, если быть ...
Стратегия кандидата для GenericUserBasedRecommender в Mahout
В mahout вы можете определитьCandidateItemsStrategy заGenericItemBasedRecommender так что конкретные предметы, например определенной категории исключены. При использованииGenericUserBasedRecommender это невозможно. Как я могу сделать это ...
Полное использование всех ядер в псевдораспределенном режиме Hadoop
Я запускаю задачу в псевдораспределенном режиме на своем 4-ядерном ноутбуке. Как я могу обеспечить эффективное использование всех ядер? В настоящее время мой трекер работы показывает, что одновременно выполняется только одна работа. Означает ли ...
В чем разница между основанной на элементах и основанной на контенте совместной фильтрацией?
Я озадачен тем, что является рекомендацией на основе предметов, как описано в книге "Махут в действии ", В книге есть алгоритм: