Deduplizierung in Version 1.11 für Websites mit demselben Inhalt und unterschiedlichen URIs

Ich verwende Nutch, um über Intranetsites zu crawlen. Ich bin auf ein Szenario gestoßen, in dem zwei Websites denselben Inhalt haben (verglichen mit der Ansichtsquelle beider Websites mit Notepad ++), aber unterschiedliche URIs. z.B

http://site_name.domain_name.com/a/b/c/index.html
http://site_name.domain_name.com/x/y/z/index.html

Nutch indiziert einen von beiden, aber nicht beide.

Wie ändere ich dieses Verhalten von nutch und indexiere beide URLs?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage