Результаты поиска по запросу "nutch"

4 ответа

Это не совсем так. Solr анализирует объекты Lucene Document, которые создает Nutch. Часть данных - это необработанный HTML, но есть и другие свойства, такие как title и contentType, которые связаны с Solr. Солр не разбирает это.

нирую наш большой веб-сайт (ы) с помощью Nutch, а затем индексирую с помощью Solr, и результаты довольно хорошие. Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса. Каждое из этих меню четко определено ...

3 ответа

Использование Nutch Crawler с Solr

Могу ли я интегрировать сканер Apache Nutch с сервером Solr Index? Редактировать: Один из наших разработчиков придумал решение из этих постов Бег Nutch и Solr [http://wiki.apache.org/nutch/RunningNutchAndSolr]Обновление для Запуск Nutch и ...

2 ответа

Не все сайты имеют «If-Modified-Since». Посмотрите на «Last-Modified», чтобы помочь.

рабатываю систему, которая должна отслеживать содержимое нескольких порталов и проверять изменения каждую ночь (например, загружать и индексировать новые сайты, которые были добавлены в течение дня). Содержимое этих порталов ...

ТОП публикаций

4 ответа

Nutch сообщение «No IndexWriters активирован» при загрузке в Solr

Я запустил гусеничный ход согласно учебникуhttp://wiki.apache.org/nutch/NutchTutorial но когда я начал загружать его, чтобы узнать, я получаю это сообщение, ...

3 ответа

http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

аюсь использоватьApache Nutch v1.3 извлечь только некоторый конкретный контент из веб-страниц. Проверен плагин html parse. Кажется, это нормализует каждую html-страницу, используя tagsoup или nekohtml. Это хорошо. Мне нужно извлечь только текст ...

1 ответ

Дедупликация в пункте 1.11 для сайтов с одинаковым содержимым и разными URI

2 ответа

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орешка и использую основныеползатькоманда Nutch, чтобы получить их. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я ...

2 ответа

Попробуйте также указать имя агента для http.robots.agents. Это сработало для меня. Я не получил это сообщение после этого !!!

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

1 ответ

Nutch 2.2.1 не продолжается после работы форсунки

Я учусь чокнутый и пытаюсь карабкаться согласно этомуруководствоЯ работаю над машиной Ubuntu с оболочкой bash. Но когда я запускаю скрипт, выполнение происхо...

4 ответа

Nutch сообщение «No IndexWriters активирован» при загрузке в Solr

Я запустил гусеничный ход согласно учебнику http://wiki.apache.org/nutch/NutchTutorial [http://wiki.apache.org/nutch/NutchTutorial]но когда я начал загружать его, чтобы узнать, я получаю это сообщение, т.е.IndexWriters не активированы - проверьте ...