Converter doc / docx para HTML semântico
Eu gostaria de converter documentos doc / docx para HTML semântico.
Alguns desejos / requisitos:
HTML semântico tal que os cabeçalhos no documento são <h1>, <h2> etc., as tabelas são <table> e assim por diante.
Deve preferencialmente ser possível manipular cabeçalhos, listas, tabelas e imagens. Gráficos e fórmulas matemáticas são um bom extra.
• Não precisa ser convertido diretamente de doc / docx para html, pode usar um formato intermediário, como xml ou docbook.
• Deve trabalhar programaticamente e com grande número de documentos.
O mais próximo de uma solução que encontrei até agora éhttp://holloway.co.nz/docvert/index.html, mas infelizmente existem muitos bugs, uma pequena base de usuários e não consegue lidar com muitos documentos. Mais uma prova de conceito.