Análise de HTML mal formatado em PHP

No meu código, eu converto alguns documentos xls com estilo para html usando o openoffice. Depois analiso as tabelas usandoxml_parser_create. O problema é que o openoffice cria html oldschool com<BR> e<HR> tags, ele não cria doctypes e não cita atributos<TABLE WIDTH=4>.

Os analisadores php que conheço não gostam disso e geram erros de formatação xml. Minha solução atual é executar algumas expressões regulares sobre o arquivo antes de analisá-lo, mas isso não é bom nem rápido.

Você conhece um php-parser (espero que incluído), que não se preocupa com esse tipo de erro? Ou talvez uma maneira rápida de corrigir um html 'quebrado'?

questionAnswers(4)

yourAnswerToTheQuestion