Maneira rápida e eficaz de analisar HTML quebrado?

Question

Nov 18, 2015, 04:28 AM

html-parsing beautifulsoup libxml2 lxml html

Maneira rápida e eficaz de analisar HTML quebrado?

Estou trabalhando em grandes projetos que exigem análise rápida de HTML, incluindo recuperação de páginas HTML quebradas.

Atualmente, o lxml é a minha escolha, sei que também fornece uma interface para o modo de recuperação do libxml2, mas não estou muito feliz com os resultados. Para algumas páginas HTML específicas, descobri que o BeautifulSoup produz resultados realmente melhores (exemplo:http://fortune.com/2015/11/10/vw-scandal-volkswagen-gift-cards/, esse aqui está quebrado<header> tag que lxml / libxml2 não pôde corrigir). No entanto, o problema é que o BS é extremamente lento.

A meu ver, navegadores modernos como o Chrome e o Firefox analisam o HTML muito rapidamente e lidam muito bem com o HTML quebrado. Como o lxml, o analisador do Chrome é construído sobre o libxml2 e o libxslt, mas com um algoritmo de manipulação de HTML quebrado mais eficaz. Espero que haja repositórios independentes exportados do Chromium para que eu possa usá-los, mas ainda não encontrei nada parecido.

Alguém conhece uma boa lib ou pelo menos uma solução alternativa (utilizando partes dos analisadores conhecidos atuais)? Muito obrigado!

questionAnswers(1)

Perguntas populares

0 a resposta

Qual é a causa e a solução para o SVN: Não foi possível autenticar para o servidor: rejeitado Desafio básico?

0 a resposta

Como faço para obter a identidade do usuário atual para um usuário de VPN em um aplicativo de formulários do Windows?

0 a resposta

A escrita do arquivo C ++ ofstream usa um buffer?

0 a resposta

No x86, quando o sistema operacional desativa as interrupções, elas desaparecem ou ficam na fila e 'esperam' que as interrupções voltem a funcionar?

0 a resposta

Como selecionar vários caminhos de pasta usando o controle FolderBrowserDialog no VB.NET

Você é muito ativo! É ótimo!

Maneira rápida e eficaz de analisar HTML quebrado?

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares