Jaki jest najlepszy sposób analizowania html w skrypcie aplikacji google
var page = UrlFetchApp.fetch(contestURL);
var doc = XmlService.parse(page);
Powyższy kod daje błąd analizy przy użyciu, jednak jeśli zastąpię klasę XmlService przestarzałą klasą Xml, z ustawioną flagą lenient, to poprawnie przeanalizuje HTML.
var page = UrlFetchApp.fetch(contestURL);
var doc = Xml.parse(page, true);
Problem jest spowodowany głównie brakiem CDATA w części javascript html, a parser narzeka na następujący błąd.
The entity name must immediately follow the '&' in the entity reference.
Nawet jeśli usunę wszystkie<script>(.*?)</script>
używając wyrażenia regularnego nadal narzeka, ponieważ<br>
tagi nie są zamknięte. Czy istnieje czysty sposób przetwarzania html na drzewo DOM.