Конвертировать doc / docx в семантический HTML
Я хотел бы преобразовать документы doc / docx в семантический HTML.
Некоторые пожелания / требования:
Семантический HTML такой, что заголовки в документе <h1>, <h2> и т. д., таблицы <стол> и так далее.
Желательно, чтобы можно было обрабатывать заголовки, списки, таблицы и изображения. Графики и математические формулы - приятное дополнение. •
Безразлично»необходимо преобразовать прямо из doc / docx в html, можно использовать промежуточный формат, такой как xml или docbook.
Должен работать программно и с большим количеством документов.
Ближе всего к решению ямы нашли так далекоhttp://holloway.co.nz/docvert/index.html, но, к сожалению, есть много ошибок, небольшая база пользователей, и это можетt обрабатывать много документов. Больше доказательства концепции.