Parsing Source Code (Python) Podejście: piękna zupa, lxml, różnica html5lib?

Mam duży kod źródłowy HTML, który chciałbym przeanalizować (~ 200 000) wierszy, i jestem całkiem pewien, że jest trochę słabego formatowania. Badałem parsery i wydaje się, że najpopularniejsze są Beautiful Soup, lxml, html5lib. Z lektury tej strony wydaje się, że lxml jest najczęściej używanym i najszybszym, podczas gdy piękna zupa jest wolniejsza, ale odpowiada za więcej błędów i odmian.

Jestem trochę zagubiony w dokumentacji Pięknej Zupy,http://www.crummy.com/software/BeautifulSoup/bs4/doc/oraz polecenia takie jak BeautifulSoup (znaczniki, „lxml”) lub BeautifulSoup (znaczniki, html5lib). W takich przypadkach używa zarówno Beautiful Soup, jak i html5lib / lxml? Prędkość nie jest tutaj problemem, ale dokładność jest. Celem końcowym jest przeanalizowanie kodu źródłowego za pomocą urllib2 i pobranie wszystkich danych tekstowych z pliku, tak jakbym miał po prostu skopiować / wkleić stronę internetową.

P.S. Czy mimo to należy przeanalizować plik bez zwracania białych znaków, które nie były obecne w widoku strony?

questionAnswers(1)

yourAnswerToTheQuestion