Как очистить Microsoft HTML HTML?

У меня есть довольно большой документ в формате HTML, созданный из Microsoft Word. Это так грязно и полно раздутых вещей (таких как неизвестные теги, неизвестные пространства имен и т. Д. И другие раздутые вещи)

Есть ли способ преобразовать его в обычный HTML-синтаксис?

Ответы на вопрос(4)

пытатьсяОчистить HTML онлайн инструмент для очистки слова HTML

Вы, вероятно, ищетеHTML Tidy, который имеет адаптеры практически на каждом языке. У него есть опции для очистки вывода Microsoft Word HTML (и многие другие функции).

Решение Вопроса

ПытатьсяHTML Tidy, Я слышал, что он хорошо работает с HTML, сгенерированным MS Word (определенно, по крайней мере, до Word 2000, но, возможно, и с более поздними версиями).

Это на самом деле не вопрос программирования, но (по крайней мере, последние версии) Word можно сохранить на «Web Page, Filtered», которая удаляет специфичные для Office теги и свойства и оставляет только те теги, которые необходимы для отображения документа в веб-браузер. Итак, если у вас есть Word, вы можете попробовать использовать его, чтобы открыть документ HTML и сохранить его в этом формате.

Ваш ответ на вопрос