Дедупликация в пункте 1.11 для сайтов с одинаковым содержимым и разными URI

Я использую Nutch для обхода сайтов интрасети. Я сталкивался со сценарием, в котором 2 сайта имеют одинаковое содержимое (по сравнению источника просмотра обоих сайтов с использованием notepad ++), но разные URI. например

http://site_name.domain_name.com/a/b/c/index.html
http://site_name.domain_name.com/x/y/z/index.html

Nutch индексирует любой из них, но не оба.

Как изменить это поведение и индексировать оба URL?

Ответы на вопрос(1)

Ваш ответ на вопрос