Desduplicação no nutch 1.11 para sites com o mesmo conteúdo e URI diferente

Estou usando o nutch para rastrear sites da intranet. Me deparei com um cenário em que dois sites têm o mesmo conteúdo (em comparação com a fonte de exibição de ambos os sites usando o bloco de notas ++), mas com um URI diferente. por exemplo.

http://site_name.domain_name.com/a/b/c/index.html
http://site_name.domain_name.com/x/y/z/index.html

Nutch está indexando um deles, mas não os dois.

Como alterar esse comportamento de nutch e indexar os dois URLs?

questionAnswers(1)

yourAnswerToTheQuestion