Разбор плохо отформатированного HTML в PHP

В своем коде я конвертирую некоторые стилизованные документы в формате xls в html, используя openoffice. Затем я анализирую таблицы, используяxml_parser_create, Проблема в том, что openoffice создает oldschool html с незакрытыми<BR> а также<HR> теги, он не создает типы документов и не цитирует атрибуты<TABLE WIDTH=4>.

Парсерам php, которые я знаю, это не нравится, и они приводят к ошибкам форматирования xml. Мое текущее решение состоит в том, чтобы запустить несколько регулярных выражений над файлом, прежде чем я его проанализирую, но это ни приятно, ни быстро.

Знаете ли вы (надеюсь, что в комплекте) php-парсер, который не заботится о подобных ошибках? Или, возможно, быстрый способ исправить «сломанный» HTML?

Ответы на вопрос(4)

Ваш ответ на вопрос