Deduplicación en nutch 1.11 para sitios que tienen el mismo contenido y diferentes URI

Estoy usando nutch para rastrear sitios de intranet. Encontré un escenario en el que 2 sitios tienen el mismo contenido (en comparación con la fuente de vista de ambos sitios usando notepad ++) pero URI diferente. p.ej.

http://site_name.domain_name.com/a/b/c/index.html
http://site_name.domain_name.com/x/y/z/index.html

Nutch está indexando cualquiera de ellos pero no los dos.

¿Cómo alterar este comportamiento de nutch e indexar ambas URL?

Respuestas a la pregunta(1)

Su respuesta a la pregunta