Результаты поиска по запросу "nutch"

2 ответа

Не все сайты имеют «If-Modified-Since». Посмотрите на «Last-Modified», чтобы помочь.

рабатываю систему, которая должна отслеживать содержимое нескольких порталов и проверять изменения каждую ночь (например, загружать и индексировать новые сайты, которые были добавлены в течение дня). Содержимое этих порталов ...

4 ответа

Как разобрать HTML с Nutch и индексировать определенный тег для Solr?

4 ответа

Это не совсем так. Solr анализирует объекты Lucene Document, которые создает Nutch. Часть данных - это необработанный HTML, но есть и другие свойства, такие как title и contentType, которые связаны с Solr. Солр не разбирает это.

нирую наш большой веб-сайт (ы) с помощью Nutch, а затем индексирую с помощью Solr, и результаты довольно хорошие. Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса. Каждое из этих меню четко определено ...

ТОП публикаций

1 ответ

Apache Nutch 2.1 другой идентификатор партии (ноль)

Я сканирую несколько сайтов с Apache Nutch 2.1. Во время сканирования я вижу следующее сообщение на многих страницах: ех. ...

7 ответов

Это неправда. Ларсман дает хороший ответ. если google.com ссылается на google.com/service/contact/phone, то это будет глубина 1, а не 3, как вы говорите.

отаю на гусеничном шасси и мне нужно точно понять, что подразумевается под "глубиной ссылки". Возьмите орех, например:http://wiki.apache.org/nutch/...

3 ответа

Использование Nutch Crawler с Solr

Могу ли я интегрировать сканер Apache Nutch с сервером Solr Index? Редактировать: Один из наших разработчиков придумал решение из этих постов Бег Nutch и Solr [http://wiki.apache.org/nutch/RunningNutchAndSolr]Обновление для Запуск Nutch и ...

3 ответа

Индексирование Solr после сканирования Nutch завершается неудачно, сообщает «Job Failed»

У меня есть сайт, размещенный на моей локальной машине, который я пытаюсь сканировать с помощью Nutch и index в Solr (оба также на моей локальной машине). Я ...

4 ответа

Nutch сообщение «No IndexWriters активирован» при загрузке в Solr

Я запустил гусеничный ход согласно учебникуhttp://wiki.apache.org/nutch/NutchTutorial но когда я начал загружать его, чтобы узнать, я получаю это сообщение, ...

4 ответа

Nutch сообщение «No IndexWriters активирован» при загрузке в Solr

Я запустил гусеничный ход согласно учебнику http://wiki.apache.org/nutch/NutchTutorial [http://wiki.apache.org/nutch/NutchTutorial]но когда я начал загружать его, чтобы узнать, я получаю это сообщение, т.е.IndexWriters не активированы - проверьте ...

1 ответ

Натч против Солр