Результаты поиска по запросу "nutch"

7 ответов

Это неправда. Ларсман дает хороший ответ. если google.com ссылается на google.com/service/contact/phone, то это будет глубина 1, а не 3, как вы говорите.

отаю на гусеничном шасси и мне нужно точно понять, что подразумевается под "глубиной ссылки". Возьмите орех, например:http://wiki.apache.org/nutch/...

1 ответ

Apache Nutch 2.1 другой идентификатор партии (ноль)

Я сканирую несколько сайтов с Apache Nutch 2.1. Во время сканирования я вижу следующее сообщение на многих страницах: ех. ...

3 ответа

Индексирование Solr после сканирования Nutch завершается неудачно, сообщает «Job Failed»

У меня есть сайт, размещенный на моей локальной машине, который я пытаюсь сканировать с помощью Nutch и index в Solr (оба также на моей локальной машине). Я ...

ТОП публикаций

4 ответа

Как разобрать HTML с Nutch и индексировать определенный тег для Solr?

4 ответа

Nutch сообщение «No IndexWriters активирован» при загрузке в Solr

Я запустил гусеничный ход согласно учебникуhttp://wiki.apache.org/nutch/NutchTutorial но когда я начал загружать его, чтобы узнать, я получаю это сообщение, ...

2 ответа

Попробуйте также указать имя агента для http.robots.agents. Это сработало для меня. Я не получил это сообщение после этого !!!

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

3 ответа

http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

аюсь использоватьApache Nutch v1.3 извлечь только некоторый конкретный контент из веб-страниц. Проверен плагин html parse. Кажется, это нормализует каждую html-страницу, используя tagsoup или nekohtml. Это хорошо. Мне нужно извлечь только текст ...

1 ответ

Натч против Солр

2 ответа

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орешка и использую основныеползатькоманда Nutch, чтобы получить их. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я ...

4 ответа

Nutch сообщение «No IndexWriters активирован» при загрузке в Solr

Я запустил гусеничный ход согласно учебнику http://wiki.apache.org/nutch/NutchTutorial [http://wiki.apache.org/nutch/NutchTutorial]но когда я начал загружать его, чтобы узнать, я получаю это сообщение, т.е.IndexWriters не активированы - проверьте ...