Konwertuj doc / docx na semantyczny HTML

Chciałbym przekonwertować dokumenty doc / docx na semantyczny HTML.

Niektóre życzenia / wymagania:

Semantyczny kod HTML taki, że nagłówki w dokumencie to <h1>, <h2> itp., Tabele są <table> i tak dalej.

Powinna być możliwa obsługa nagłówków, list, tabel i obrazów. Wykresy i formuły matematyczne są miłym dodatkiem.

• Nie trzeba konwertować bezpośrednio z doc / docx do html, można użyć formatu pośredniego, takiego jak xml lub docbook.

• Powinien działać programowo iz dużą liczbą dokumentów.

Najbliższą rzeczą, jaką do tej pory znalazłem, jest rozwiązaniehttp://holloway.co.nz/docvert/index.html, ale niestety istnieje wiele błędów, mała baza użytkowników i nie może obsłużyć wielu dokumentów. Więcej dowodu koncepcji.

questionAnswers(5)

yourAnswerToTheQuestion