Análise do Código Fonte (Python): Beautiful Soup, lxml, html5lib difference?

Question

Jun 08, 2012, 05:28 AM

Análise do Código Fonte (Python): Beautiful Soup, lxml, html5lib difference?

Eu tenho um grande código-fonte HTML que gostaria de analisar (~ 200.000) linhas, e estou bastante certo de que há alguma formatação ruim por toda parte. Eu tenho pesquisado alguns parsers, e parece que o Beautiful Soup, lxml, html5lib é o mais popular. Ao ler este site, parece que o lxml é o mais usado e mais rápido, enquanto o Beautiful Soup é mais lento, mas é responsável por mais erros e variações.

Estou um pouco confuso com a documentação do Beautiful Soup,http://www.crummy.com/software/BeautifulSoup/bs4/doc/e comandos como BeautifulSoup (marcação, "lxml") ou BeautifulSoup (marcação, html5lib). Em tais casos, está usando tanto Beautiful Soup e html5lib / lxml? A velocidade não é realmente um problema aqui, mas a precisão é. O objetivo final é analisar o código-fonte usando urllib2 e recuperar todos os dados de texto do arquivo como se eu fosse apenas copiar / colar a página da Web.

P.S. Existe alguma maneira de analisar o arquivo sem retornar nenhum espaço em branco que não estava presente na exibição da página da Web?