Разбор плохо отформатированного HTML в PHP
В своем коде я конвертирую некоторые стилизованные документы в формате xls в html, используя openoffice. Затем я анализирую таблицы, используяxml_parser_create
, Проблема в том, что openoffice создает oldschool html с незакрытыми<BR>
а также<HR>
теги, он не создает типы документов и не цитирует атрибуты<TABLE WIDTH=4>
.
Парсерам php, которые я знаю, это не нравится, и они приводят к ошибкам форматирования xml. Мое текущее решение состоит в том, чтобы запустить несколько регулярных выражений над файлом, прежде чем я его проанализирую, но это ни приятно, ни быстро.
Знаете ли вы (надеюсь, что в комплекте) php-парсер, который не заботится о подобных ошибках? Или, возможно, быстрый способ исправить «сломанный» HTML?