Результаты поиска по запросу "nutch"

1 ответ

Apache Nutch 2.1 другой идентификатор партии (ноль)

Я сканирую несколько сайтов с Apache Nutch 2.1. Во время сканирования я вижу следующее сообщение на многих страницах: ех. ...

1 ответ

Nutch 2.2.1 не продолжается после работы форсунки

Я учусь чокнутый и пытаюсь карабкаться согласно этомуруководствоЯ работаю над машиной Ubuntu с оболочкой bash. Но когда я запускаю скрипт, выполнение происхо...

1 ответ

Натч против Солр

ТОП публикаций

1 ответ

Дедупликация в пункте 1.11 для сайтов с одинаковым содержимым и разными URI

1 ответ

Apache Nutch 2.1 другой идентификатор партии (ноль)

Я сканирую несколько сайтов с Apache Nutch 2.1. Во время сканирования я вижу следующее сообщение на многих страницах: ех. ...

2 ответа

Не все сайты имеют «If-Modified-Since». Посмотрите на «Last-Modified», чтобы помочь.

рабатываю систему, которая должна отслеживать содержимое нескольких порталов и проверять изменения каждую ночь (например, загружать и индексировать новые сайты, которые были добавлены в течение дня). Содержимое этих порталов ...

2 ответа

Да, есть способ. Взгляните на cache.jsp, чтобы увидеть, как он отображает кэшированные данные.

ли способ получить html-содержимое каждой веб-страницы во время сканирования веб-страницы?

2 ответа

Попробуйте также указать имя агента для http.robots.agents. Это сработало для меня. Я не получил это сообщение после этого !!!

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

2 ответа

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орешка и использую основныеползатькоманда Nutch, чтобы получить их. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я ...

3 ответа

Индексирование Solr после сканирования Nutch завершается неудачно, сообщает «Job Failed»

У меня есть сайт, размещенный на моей локальной машине, который я пытаюсь сканировать с помощью Nutch и index в Solr (оба также на моей локальной машине). Я ...