Wie speichere ich die originale HTML-Datei mit Apache Nutch?
Ich bin neu in Suchmaschinen und Webcrawlern. Jetzt möchte ich alle Originalseiten einer bestimmten Website als HTML-Dateien speichern, aber mit Apache Nutch kann ich nur die binären Datenbankdateien abrufen. Wie bekomme ich die Original-HTML-Dateien mit Nutch?
Unterstützt Nutch das? Wenn nicht, mit welchen anderen Tools kann ich mein Ziel erreichen? (Die Tools, die verteiltes Crawlen unterstützen, sind besser.)