Was ist der beste Weg, um HTML in Google Apps-Skript zu analysieren

Question

Oct 18, 2013, 07:00 PM

regex html javascript google-apps-script

Was ist der beste Weg, um HTML in Google Apps-Skript zu analysieren

var page = UrlFetchApp.fetch(contestURL);
var doc = XmlService.parse(page);

Der obige Code gibt bei der Verwendung einen Analysefehler aus. Wenn ich jedoch die XmlService-Klasse durch die veraltete Xml-Klasse ersetze und das Lenient-Flag festgelegt habe, wird der HTML-Code ordnungsgemäß analysiert.

var page = UrlFetchApp.fetch(contestURL);
var doc = Xml.parse(page, true);

Das Problem wird hauptsächlich dadurch verursacht, dass im Javascript-Teil des HTML-Codes kein CDATA-Code vorhanden ist und der Parser den folgenden Fehler meldet.

The entity name must immediately follow the '&' in the entity reference.

Auch wenn ich alles entferne<script>(.*?)</script> mit regex klagt es immer noch, weil die<br> Tags sind nicht geschlossen. Gibt es eine saubere Möglichkeit zum Parsen von HTML in einen DOM-Baum.