Welcher Webcrawler zum Extrahieren und Parsen von Daten von etwa tausend Websites

Ich versuche, ungefähr tausend Websites zu crawlen, von denen mich nur der HTML-Inhalt interessiert.

Anschließend transformiere ich den HTML-Code in XML, um ihn mit Xpath zu analysieren und den gewünschten Inhalt zu extrahieren.

Ich verwende den Heritrix 2.0-Crawler seit einigen Monaten, stieß jedoch auf große Leistungs-, Speicher- und Stabilitätsprobleme (Heritrix stürzt jeden Tag ab und es waren keine Versuche mit JVM-Parametern zur Begrenzung der Speichernutzung erfolgreich).

Welchen Crawler würden Sie nach Ihren Erfahrungen auf diesem Gebiet zum Extrahieren und Parsen von Inhalten aus Tausenden von Quellen verwenden?

Antworten auf die Frage(3)

Ihre Antwort auf die Frage