Existe uma alternativa ao HTML Tidy?
Incorporei o HTML Tidy no meu aplicativo para limpar o HTML recebido. Mas o Tidy tem uma enorme quantidade de bugs e corrigi-los diretamente na fonte é o meu pior pesadelo. O código-fonte organizado é umabominação ilegível. Mais de mil funções de linha, má nomeação de variáveis, código de espaguete etc. É realmente horrível.
Pior ainda, o desenvolvimento oficialparece ter cessado. Nos últimos 12 meses, houvetrês gravar transações no repositório oficial do CVS. Mas está morto e enterrado por muito mais tempo do que isso ...
Então, estou procurando um aplicativo / biblioteca OSS C ou C ++ que possa fazer o que o Tidy pode (quando quiser): corrigir uma marcação HTML incorreta e transformá-la em XHTML válido (é nessa parte que estou interessado). E eu digo todos os tipos de marcação ruim.
Existe algo assim por aí?
Edição: Eu preciso tanto para manipulações na árvore DOM por uma ferramenta de manipulação XML e para conformidade geral com as especificações XHTML. Meu aplicativo precisa aceitar HTML dos usuários (que geralmente é inválido de várias maneiras) e gerar um XHTML válido. Ele precisa ser capaz de manipular até mesmo o HTML que normalmente não seria exibido em um navegador porque o usuário o editou manualmente e não o verificou posteriormente.
Um substituto para o analisador de correção de erros de Tidy ... que não é ruim. Não me importo de bugs se a fonte for legível e eu puder resolver problemas sozinho, ou se houver desenvolvedores ativos que forneçam correções em tempo hábil.