Каков наилучший способ разбора HTML в скрипте приложений Google
var page = UrlFetchApp.fetch(contestURL);
var doc = XmlService.parse(page);
Приведенный выше код выдает ошибку синтаксического анализа при использовании, однако, если я заменю класс XmlService устаревшим классом Xml с установленным флагом lenient, он правильно анализирует HTML.
var page = UrlFetchApp.fetch(contestURL);
var doc = Xml.parse(page, true);
Проблема в основном возникает из-за отсутствия CDATA в javascript-части html, и анализатор жалуется на следующую ошибку.
The entity name must immediately follow the '&' in the entity reference.
Даже если я уберу все<script>(.*?)</script>
используя регулярные выражения, он все еще жалуется, потому что<br>
теги не закрыты. Есть ли чистый способ парсинга HTML в дерево DOM.