Desduplicação no nutch 1.11 para sites com o mesmo conteúdo e URI diferente
Estou usando o nutch para rastrear sites da intranet. Me deparei com um cenário em que dois sites têm o mesmo conteúdo (em comparação com a fonte de exibição de ambos os sites usando o bloco de notas ++), mas com um URI diferente. por exemplo.
http://site_name.domain_name.com/a/b/c/index.html
http://site_name.domain_name.com/x/y/z/index.html
Nutch está indexando um deles, mas não os dois.
Como alterar esse comportamento de nutch e indexar os dois URLs?