Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орешка и использую основныеползать команда Nutch, чтобы получить их. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я устанавливаю параметры сканирования как -depth 1 -topN 1000000. Но это не работает. Кто-нибудь знает как это сделать?

Ответы на вопрос(2)

Удалить каталог сканирования и URL (если он был создан ранее)Создайте и обновите начальный файл (где URL указаны в 1URL на строку)Перезапустите процесс сканирования

команда

urllist - Каталог, в котором находится начальный файл (список URL)crawl - имя каталога

Даже если проблема не устранена, попробуйте удалить папку Nutch и перезапустить весь процесс.

 Xiao06 февр. 2012 г., 18:49
Я не хочу, чтобы Nutch сканировал исходные ссылки, а только те URL-адреса, которые я даю в качестве начальных значений.
Решение Вопроса

Установите это свойство вnutch-site.xml, (по умолчанию это правда, поэтому он добавляет ссылки на crawldb)

<property>
  <name>db.update.additions.allowed</name>
  <value>false</value>
  <description>If true, updatedb will add newly discovered URLs, if false
  only already existing URLs in the CrawlDb will be updated and no new
  URLs will be added.
  </description>
</property>

Ваш ответ на вопрос