Wie speichere ich die originale HTML-Datei mit Apache Nutch?

Ich bin neu in Suchmaschinen und Webcrawlern. Jetzt möchte ich alle Originalseiten einer bestimmten Website als HTML-Dateien speichern, aber mit Apache Nutch kann ich nur die binären Datenbankdateien abrufen. Wie bekomme ich die Original-HTML-Dateien mit Nutch?

Unterstützt Nutch das? Wenn nicht, mit welchen anderen Tools kann ich mein Ziel erreichen? (Die Tools, die verteiltes Crawlen unterstützen, sind besser.)

Antworten auf die Frage(5)

Ihre Antwort auf die Frage