Deduplizierung in Version 1.11 für Websites mit demselben Inhalt und unterschiedlichen URIs
Ich verwende Nutch, um über Intranetsites zu crawlen. Ich bin auf ein Szenario gestoßen, in dem zwei Websites denselben Inhalt haben (verglichen mit der Ansichtsquelle beider Websites mit Notepad ++), aber unterschiedliche URIs. z.B
http://site_name.domain_name.com/a/b/c/index.html
http://site_name.domain_name.com/x/y/z/index.html
Nutch indiziert einen von beiden, aber nicht beide.
Wie ändere ich dieses Verhalten von nutch und indexiere beide URLs?