Как очистить Microsoft HTML HTML?

У меня есть довольно большой документ в формате HTML, созданный из Microsoft Word. Это так грязно и полно раздутых вещей (таких как неизвестные теги, неизвестные пространства имен и т. Д. И другие раздутые вещи)

Есть ли способ преобразовать его в обычный HTML-синтаксис?

Ответы на вопрос(4)

HTML Tidy, который имеет адаптеры практически на каждом языке. У него есть опции для очистки вывода Microsoft Word HTML (и многие другие функции).

но (по крайней мере, последние версии) Word можно сохранить на «Web Page, Filtered», которая удаляет специфичные для Office теги и свойства и оставляет только те теги, которые необходимы для отображения документа в веб-браузер. Итак, если у вас есть Word, вы можете попробовать использовать его, чтобы открыть документ HTML и сохранить его в этом формате.

Решение Вопроса

HTML Tidy, Я слышал, что он хорошо работает с HTML, сгенерированным MS Word (определенно, по крайней мере, до Word 2000, но, возможно, и с более поздними версиями).

Очистить HTML онлайн инструмент для очистки слова HTML

Ваш ответ на вопрос