Wie speichere ich die originale HTML-Datei mit Apache Nutch?

Question

Apr 04, 2012, 10:06 AM

Wie speichere ich die originale HTML-Datei mit Apache Nutch?

Ich bin neu in Suchmaschinen und Webcrawlern. Jetzt möchte ich alle Originalseiten einer bestimmten Website als HTML-Dateien speichern, aber mit Apache Nutch kann ich nur die binären Datenbankdateien abrufen. Wie bekomme ich die Original-HTML-Dateien mit Nutch?

Unterstützt Nutch das? Wenn nicht, mit welchen anderen Tools kann ich mein Ziel erreichen? (Die Tools, die verteiltes Crawlen unterstützen, sind besser.)