Welcher Webcrawler zum Extrahieren und Parsen von Daten von etwa tausend Websites

Question

Oct 31, 2009, 09:11 AM

Welcher Webcrawler zum Extrahieren und Parsen von Daten von etwa tausend Websites

Ich versuche, ungefähr tausend Websites zu crawlen, von denen mich nur der HTML-Inhalt interessiert.

Anschließend transformiere ich den HTML-Code in XML, um ihn mit Xpath zu analysieren und den gewünschten Inhalt zu extrahieren.

Ich verwende den Heritrix 2.0-Crawler seit einigen Monaten, stieß jedoch auf große Leistungs-, Speicher- und Stabilitätsprobleme (Heritrix stürzt jeden Tag ab und es waren keine Versuche mit JVM-Parametern zur Begrenzung der Speichernutzung erfolgreich).

Welchen Crawler würden Sie nach Ihren Erfahrungen auf diesem Gebiet zum Extrahieren und Parsen von Inhalten aus Tausenden von Quellen verwenden?

Antworten auf die Frage(3)

Top Fragen

0 die antwort

Bearbeiten von Benutzerberechtigungen für AWS RDS

0 die antwort

Python-Throwing "'utf8' Codec kann Byte 0xd0 in Position 0 nicht decodieren" Fehler

0 die antwort

SIGSEGV SEGV_ACCERR Crash Reports - Was tun?

0 die antwort

Was ist der Unterschied zwischen den Abschnitten require und require-dev in composer.json?

0 die antwort

Verwenden von UIActivityViewController und UIActivityItemProvider zum Freigeben von PDF

Du bist sehr aktiv! Es ist großartig!

Welcher Webcrawler zum Extrahieren und Parsen von Daten von etwa tausend Websites

Antworten auf die Frage(3)

Ihre Antwort auf die Frage

Top Fragen