Дедупликация в пункте 1.11 для сайтов с одинаковым содержимым и разными URI
Я использую Nutch для обхода сайтов интрасети. Я сталкивался со сценарием, в котором 2 сайта имеют одинаковое содержимое (по сравнению источника просмотра обоих сайтов с использованием notepad ++), но разные URI. например
http://site_name.domain_name.com/a/b/c/index.html
http://site_name.domain_name.com/x/y/z/index.html
Nutch индексирует любой из них, но не оба.
Как изменить это поведение и индексировать оба URL?