Maneira rápida e eficaz de analisar HTML quebrado?

Estou trabalhando em grandes projetos que exigem análise rápida de HTML, incluindo recuperação de páginas HTML quebradas.

Atualmente, o lxml é a minha escolha, sei que também fornece uma interface para o modo de recuperação do libxml2, mas não estou muito feliz com os resultados. Para algumas páginas HTML específicas, descobri que o BeautifulSoup produz resultados realmente melhores (exemplo:http://fortune.com/2015/11/10/vw-scandal-volkswagen-gift-cards/, esse aqui está quebrado<header> tag que lxml / libxml2 não pôde corrigir). No entanto, o problema é que o BS é extremamente lento.

A meu ver, navegadores modernos como o Chrome e o Firefox analisam o HTML muito rapidamente e lidam muito bem com o HTML quebrado. Como o lxml, o analisador do Chrome é construído sobre o libxml2 e o libxslt, mas com um algoritmo de manipulação de HTML quebrado mais eficaz. Espero que haja repositórios independentes exportados do Chromium para que eu possa usá-los, mas ainda não encontrei nada parecido.

Alguém conhece uma boa lib ou pelo menos uma solução alternativa (utilizando partes dos analisadores conhecidos atuais)? Muito obrigado!

questionAnswers(1)

yourAnswerToTheQuestion