Результаты поиска по запросу "nutch"

1 ответ

Дедупликация в пункте 1.11 для сайтов с одинаковым содержимым и разными URI

1 ответ

Nutch 2.2.1 не продолжается после работы форсунки

Я учусь чокнутый и пытаюсь карабкаться согласно этомуруководствоЯ работаю над машиной Ubuntu с оболочкой bash. Но когда я запускаю скрипт, выполнение происхо...

3 ответа

Индексирование Solr после сканирования Nutch завершается неудачно, сообщает «Job Failed»

У меня есть сайт, размещенный на моей локальной машине, который я пытаюсь сканировать с помощью Nutch и index в Solr (оба также на моей локальной машине). Я ...

ТОП публикаций

4 ответа

Nutch сообщение «No IndexWriters активирован» при загрузке в Solr

Я запустил гусеничный ход согласно учебнику http://wiki.apache.org/nutch/NutchTutorial [http://wiki.apache.org/nutch/NutchTutorial]но когда я начал загружать его, чтобы узнать, я получаю это сообщение, т.е.IndexWriters не активированы - проверьте ...

4 ответа

Nutch сообщение «No IndexWriters активирован» при загрузке в Solr

Я запустил гусеничный ход согласно учебникуhttp://wiki.apache.org/nutch/NutchTutorial но когда я начал загружать его, чтобы узнать, я получаю это сообщение, ...

1 ответ

Apache Nutch 2.1 другой идентификатор партии (ноль)

Я сканирую несколько сайтов с Apache Nutch 2.1. Во время сканирования я вижу следующее сообщение на многих страницах: ех. ...

1 ответ

Apache Nutch 2.1 другой идентификатор партии (ноль)

Я сканирую несколько сайтов с Apache Nutch 2.1. Во время сканирования я вижу следующее сообщение на многих страницах: ех. ...

4 ответа

Как разобрать HTML с Nutch и индексировать определенный тег для Solr?

4 ответа

Как разобрать HTML с Nutch и индексировать определенный тег для Solr?

2 ответа

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орешка и использую основныеползатькоманда Nutch, чтобы получить их. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я ...