Jaki jest najlepszy sposób analizowania html w skrypcie aplikacji google

Question

Oct 18, 2013, 07:00 PM

google-apps-script regex javascript html

Jaki jest najlepszy sposób analizowania html w skrypcie aplikacji google

var page = UrlFetchApp.fetch(contestURL);
var doc = XmlService.parse(page);

Powyższy kod daje błąd analizy przy użyciu, jednak jeśli zastąpię klasę XmlService przestarzałą klasą Xml, z ustawioną flagą lenient, to poprawnie przeanalizuje HTML.

var page = UrlFetchApp.fetch(contestURL);
var doc = Xml.parse(page, true);

Problem jest spowodowany głównie brakiem CDATA w części javascript html, a parser narzeka na następujący błąd.

The entity name must immediately follow the '&' in the entity reference.

Nawet jeśli usunę wszystkie<script>(.*?)</script> używając wyrażenia regularnego nadal narzeka, ponieważ<br> tagi nie są zamknięte. Czy istnieje czysty sposób przetwarzania html na drzewo DOM.