Каков наилучший способ разбора HTML в скрипте приложений Google

Question

Oct 18, 2013, 07:00 PM

javascript regex google-apps-script html

Каков наилучший способ разбора HTML в скрипте приложений Google

var page = UrlFetchApp.fetch(contestURL);
var doc = XmlService.parse(page);

Приведенный выше код выдает ошибку синтаксического анализа при использовании, однако, если я заменю класс XmlService устаревшим классом Xml с установленным флагом lenient, он правильно анализирует HTML.

var page = UrlFetchApp.fetch(contestURL);
var doc = Xml.parse(page, true);

Проблема в основном возникает из-за отсутствия CDATA в javascript-части html, и анализатор жалуется на следующую ошибку.

The entity name must immediately follow the '&' in the entity reference.

Даже если я уберу все<script>(.*?)</script> используя регулярные выражения, он все еще жалуется, потому что<br> теги не закрыты. Есть ли чистый способ парсинга HTML в дерево DOM.

Каков наилучший способ разбора HTML в скрипте приложений Google

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Каков наилучший способ разбора HTML в скрипте приложений Google

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы