Конвертировать doc / docx в семантический HTML
Я хотел бы преобразовать документы doc / docx в семантический HTML.
Некоторые пожелания / требования:
Семантический HTML такой, что заголовками в документе являются <h1>, <h2> и т. Д., Таблицами являются <table> и т. Д.
Желательно, чтобы можно было обрабатывать заголовки, списки, таблицы и изображения. Графики и математические формулы - приятное дополнение.
• Не нужно конвертировать прямо из doc / docx в html, можно использовать промежуточный формат, такой как xml или docbook.
• Должен работать программно и с большим количеством документов.
Самое близкое к решению, которое я нашел, этоhttp://holloway.co.nz/docvert/index.html, но, к сожалению, есть много ошибок, небольшая база пользователей, и она не может обрабатывать много документов. Больше доказательства концепции.