Konwertuj doc / docx na semantyczny HTML
Chciałbym przekonwertować dokumenty doc / docx na semantyczny HTML.
Niektóre życzenia / wymagania:
Semantyczny kod HTML taki, że nagłówki w dokumencie to <h1>, <h2> itp., Tabele są <table> i tak dalej.
Powinna być możliwa obsługa nagłówków, list, tabel i obrazów. Wykresy i formuły matematyczne są miłym dodatkiem.
• Nie trzeba konwertować bezpośrednio z doc / docx do html, można użyć formatu pośredniego, takiego jak xml lub docbook.
• Powinien działać programowo iz dużą liczbą dokumentów.
Najbliższą rzeczą, jaką do tej pory znalazłem, jest rozwiązaniehttp://holloway.co.nz/docvert/index.html, ale niestety istnieje wiele błędów, mała baza użytkowników i nie może obsłużyć wielu dokumentów. Więcej dowodu koncepcji.