Deduplicación en nutch 1.11 para sitios que tienen el mismo contenido y diferentes URI
Estoy usando nutch para rastrear sitios de intranet. Encontré un escenario en el que 2 sitios tienen el mismo contenido (en comparación con la fuente de vista de ambos sitios usando notepad ++) pero URI diferente. p.ej.
http://site_name.domain_name.com/a/b/c/index.html
http://site_name.domain_name.com/x/y/z/index.html
Nutch está indexando cualquiera de ellos pero no los dos.
¿Cómo alterar este comportamiento de nutch e indexar ambas URL?