Конвертировать doc / docx в семантический HTML

Я хотел бы преобразовать документы doc / docx в семантический HTML.

Некоторые пожелания / требования:

Семантический HTML такой, что заголовки в документе <h1>, <h2> и т. д., таблицы <стол> и так далее.

Желательно, чтобы можно было обрабатывать заголовки, списки, таблицы и изображения. Графики и математические формулы - приятное дополнение. •

 Безразлично»необходимо преобразовать прямо из doc / docx в html, можно использовать промежуточный формат, такой как xml или docbook.

 Должен работать программно и с большим количеством документов.

Ближе всего к решению ямы нашли так далекоhttp://holloway.co.nz/docvert/index.html, но, к сожалению, есть много ошибок, небольшая база пользователей, и это можетt обрабатывать много документов. Больше доказательства концепции.

Ответы на вопрос(5)

Ваш ответ на вопрос