Есть ли альтернатива HTML Tidy?

Я встроил HTML Tidy в свое приложение для очистки входящего HTML. Но у Tidy есть огромное количество ошибок, и их исправление прямо в источнике - мой худший кошмар. Аккуратный исходный коднечитаемая мерзость, Тысяча + строковых функций, плохое именование переменных, код спагетти и т. Д. Это действительно ужасно.

Хуже того, официальная разработкакажется, прекратилось, За последние 12 месяцевтри писать транзакции в официальном репо CVS. Но он был мертв и похоронен гораздо дольше ...

Поэтому я ищу приложение / библиотеку OSS C или C ++, которое может делать то, что может Tidy (когда это так): исправлять плохую разметку HTML и преобразовывать ее в действительный XHTML (это та часть, которая мне интересна). И я имею в виду все виды плохой разметки.

Есть ли что-то подобное там?

РЕДАКТИРОВАТЬ: мне это нужно как для манипуляций с деревом DOM с помощью инструмента обработки XML, так и для общего соответствия спецификации XHTML. Мое приложение должно принимать HTML от пользователей (который часто недопустим во всех отношениях) и выводить действительный XHTML. Он должен уметь обрабатывать даже HTML, который обычно не отображается в браузере, потому что пользователь редактировал его вручную и не проверял впоследствии.

Вставная замена исправляющего парсер Tidy ... это не отстой. Я не возражаю против ошибок, если источник читабелен, и я могу сам исправить проблемы, или если есть активные разработчики, которые своевременно предоставляют исправления ошибок.

Ответы на вопрос(4)

Ваш ответ на вопрос