Конвертировать doc / docx в семантический HTML

Я хотел бы преобразовать документы doc / docx в семантический HTML.

Некоторые пожелания / требования:

Семантический HTML такой, что заголовками в документе являются <h1>, <h2> и т. Д., Таблицами являются <table> и т. Д.

Желательно, чтобы можно было обрабатывать заголовки, списки, таблицы и изображения. Графики и математические формулы - приятное дополнение.

• Не нужно конвертировать прямо из doc / docx в html, можно использовать промежуточный формат, такой как xml или docbook.

• Должен работать программно и с большим количеством документов.

Самое близкое к решению, которое я нашел, этоhttp://holloway.co.nz/docvert/index.html, но, к сожалению, есть много ошибок, небольшая база пользователей, и она не может обрабатывать много документов. Больше доказательства концепции.

Ответы на вопрос(5)

Ваш ответ на вопрос