Parsing Source Code (Python) Ansatz: Schöne Suppe, lxml, html5lib Unterschied?

Question

Jun 08, 2012, 05:28 AM

Parsing Source Code (Python) Ansatz: Schöne Suppe, lxml, html5lib Unterschied?

Ich habe einen großen HTML-Quellcode, den ich analysieren möchte (~ 200.000), und ich bin ziemlich sicher, dass es durchweg eine schlechte Formatierung gibt. Ich habe einige Parser recherchiert und es scheint, dass Beautiful Soup, lxml, html5lib die beliebtesten sind. Nach dem Lesen dieser Website scheint Lxml die am häufigsten verwendete und schnellste zu sein, während Beautiful Soup langsamer ist, aber für mehr Fehler und Variationen verantwortlich ist.

Ich bin ein wenig verwirrt über die Dokumentation von Beautiful Soup.http://www.crummy.com/software/BeautifulSoup/bs4/doc/und Befehle wie BeautifulSoup (Markup, "lxml") oder BeautifulSoup (Markup, html5lib). In solchen Fällen wird sowohl Beautiful Soup als auch html5lib / lxml verwendet? Geschwindigkeit ist hier kein wirkliches Problem, Genauigkeit jedoch. Das Endziel ist es, den Quellcode mit urllib2 zu analysieren und alle Textdaten aus der Datei abzurufen, als ob ich nur die Webseite kopieren / einfügen würde.

P.S. Gibt es eine Möglichkeit, die Datei zu analysieren, ohne Leerzeichen zurückzugeben, die in der Webseitenansicht nicht vorhanden waren?