Converter doc / docx para HTML semântico

Eu gostaria de converter documentos doc / docx para HTML semântico.

Alguns desejos / requisitos:

HTML semântico tal que os cabeçalhos no documento são <h1>, <h2> etc., as tabelas são <table> e assim por diante.

Deve preferencialmente ser possível manipular cabeçalhos, listas, tabelas e imagens. Gráficos e fórmulas matemáticas são um bom extra.

• Não precisa ser convertido diretamente de doc / docx para html, pode usar um formato intermediário, como xml ou docbook.

• Deve trabalhar programaticamente e com grande número de documentos.

O mais próximo de uma solução que encontrei até agora éhttp://holloway.co.nz/docvert/index.html, mas infelizmente existem muitos bugs, uma pequena base de usuários e não consegue lidar com muitos documentos. Mais uma prova de conceito.

questionAnswers(5)

yourAnswerToTheQuestion