Welcher Webcrawler zum Extrahieren und Parsen von Daten von etwa tausend Websites
Ich versuche, ungefähr tausend Websites zu crawlen, von denen mich nur der HTML-Inhalt interessiert.
Anschließend transformiere ich den HTML-Code in XML, um ihn mit Xpath zu analysieren und den gewünschten Inhalt zu extrahieren.
Ich verwende den Heritrix 2.0-Crawler seit einigen Monaten, stieß jedoch auf große Leistungs-, Speicher- und Stabilitätsprobleme (Heritrix stürzt jeden Tag ab und es waren keine Versuche mit JVM-Parametern zur Begrenzung der Speichernutzung erfolgreich).
Welchen Crawler würden Sie nach Ihren Erfahrungen auf diesem Gebiet zum Extrahieren und Parsen von Inhalten aus Tausenden von Quellen verwenden?