Código fuente analizando (Python) Enfoque: ¿Sopa hermosa, lxml, diferencia html5lib?

Tengo un código fuente HTML grande que me gustaría analizar (~ 200,000) líneas, y estoy bastante seguro de que hay algún formato pobre en todo. He estado investigando algunos analizadores, y parece que Beautiful Soup, lxml, html5lib son los más populares. Al leer este sitio web, parece que lxml es el más usado y el más rápido, mientras que Beautiful Soup es más lento pero tiene más errores y variaciones.

Estoy un poco confundido con la documentación de Beautiful Soup,http://www.crummy.com/software/BeautifulSoup/bs4/doc/, y comandos como BeautifulSoup (markup, "lxml") o BeautifulSoup (markup, html5lib). En tales casos, ¿está utilizando tanto Beautiful Soup como html5lib / lxml? La velocidad no es realmente un problema aquí, pero la precisión lo es. El objetivo final es analizar el código fuente utilizando urllib2 y recuperar todos los datos de texto del archivo como si solo tuviera que copiar / pegar la página web.

PD ¿Hay algún modo de analizar el archivo sin devolver ningún espacio en blanco que no estuviera presente en la vista de la página web?

Respuestas a la pregunta(1)

Su respuesta a la pregunta