Как проанализировать строку HTML в скрипте Google Apps без использования XmlService?
Я хочу создать скребок с помощью таблиц Google со скриптом Google Apps. Я знаю, что это возможно, и я видел некоторые учебники и темы об этом.
Основная идея заключается в использовании:
var html = UrlFetchApp.fetch('http://en.wikipedia.org/wiki/Document_Object_Model').getContentText();
var doc = XmlService.parse(html);
А затем получить и работать с элементами. Однако метод
XmlService.parse()
Не работает для какой-то страницы. Например, если я попробую:
function test(){
var html = UrlFetchApp.fetch("https://www.nespresso.com/br/pt/product/maquina-de-cafe-espresso-pixie-clips-preto-lima-neon-c60-220v").getContentText();
var parse = XmlService.parse(html);
}
Я получаю следующую ошибку:
Error on line 225: The entity name must immediately follow the '&' in the entity reference. (line 3, file "")
Я пытался использоватьstring.replace()
устранить символы, которые, по-видимому, вызывают ошибку, но она не работает. Все виды других ошибок появляются. Следующий код, например:
function test(){
var html = UrlFetchApp.fetch("https://www.nespresso.com/br/pt/product/maquina-de-cafe-espresso-pixie-clips-preto-lima-neon-c60-220v").getContentText();
var regExp = new RegExp("&", "gi");
html = html.replace(regExp,"");
var parse = XmlService.parse(html);
}
Дает мне следующую ошибку:
Error on line 358: The content of elements must consist of well-formed character data or markup. (line 6, file "")
Я считаю, что это проблема сXmlService.parse()
метод.
Я читал в этой теме:
Таблица разбора скриптов Google App из испорченного html а такжеКаков наилучший способ разбора HTML в скрипте приложений Google что можно использовать устаревший метод под названиемxml.parse()
который принимает второй параметр, который позволяет анализировать HTML. Однако, как я уже говорил, это устарело, и я нигде не могу найти никакой документации по нему.xml.parse()
Кажется, что синтаксический анализ строки, но у меня проблемы с элементами из-за отсутствия документации. И это также не самое безопасное долгосрочное решение, потому что оно может быть деактивировано в ближайшее время.
Итак, я хочу знать, как мне разобрать этот HTML в скрипте Google Apps?
Я также попробовал:
function test(){
var html = UrlFetchApp.fetch("https://www.nespresso.com/br/pt/product/maquina-de-cafe-espresso-pixie-clips-preto-lima-neon-c60-220v").getContentText();
var htmlOutput = HtmlService.createHtmlOutput(html).getContent();
var parse = XmlService.parse(htmlOutput);
}
Но это не работает, я получаю эту ошибку:
Неверно сформированный HTML-контент:
Я думал об использовании библиотеки с открытым исходным кодом для анализа HTML, но я не смог найти ни одной.
Моя конечная цель состоит в том, чтобы получить некоторую информацию из набора страниц, таких как цена, ссылка, название продуктов и т. Д. Мне удалось сделать это с помощью серии RegEx:
var ss = SpreadsheetApp.getActiveSpreadsheet();
var linksSheet = ss.getSheetByName("Links");
var resultadosSheet = ss.getSheetByName("Resultados");
function scrapyLoco(){
var links = linksSheet.getRange(1, 1, linksSheet.getLastRow(), 1).getValues();
var arrayGrandao = [];
for (var row = 0, len = links.length; row < len; row++){
var link = links[row];
var arrayDeResultados = pegarAsCoisas(link[0]);
Logger.log(arrayDeResultados);
arrayGrandao.push(arrayDeResultados);
}
resultadosSheet.getRange(2, 1, arrayGrandao.length, arrayGrandao[0].length).setValues(arrayGrandao);
}
function pegarAsCoisas(linkDoProduto) {
var resultadoArray = [];
var html = UrlFetchApp.fetch(linkDoProduto).getContentText();
var regExp = new RegExp("<h1([^]*)h1>", "gi");
var h1Html = regExp.exec(html);
var h1Parse = XmlService.parse(h1Html[0]);
var h1Output = h1Parse.getRootElement().getText();
h1Output = h1Output.replace(/(\r\n|\n|\r|(^( )*))/gm,"");
regExp = new RegExp("Ref.: ([^(])*", "gi");
var codeHtml = regExp.exec(html);
var codeOutput = codeHtml[0].replace("Ref.: ","").replace(" ","");
regExp = new RegExp("margin-top: 5px; margin-bottom: 5px; padding: 5px; background-color: #699D15; color: #fff; text-align: center;([^]*)/div>", "gi");
var descriptionHtml = regExp.exec(html);
var regExp = new RegExp("<p([^]*)p>", "gi");
var descriptionHtml = regExp.exec(descriptionHtml);
var regExp = new RegExp("^[^.]*", "gi");
var descriptionHtml = regExp.exec(descriptionHtml);
var descriptionOutput = descriptionHtml[0].replace("<p>","");
descriptionOutput = descriptionOutput+".";
regExp = new RegExp("ecom(.+?)Main.png", "gi");
var imageHtml = regExp.exec(html);
var comecoDaURL = "https://www.nespresso.com/";
var imageOutput = comecoDaURL+imageHtml[0];
var regExp = new RegExp("nes_l-float nes_big-price nes_big-price-with-out([^]*)p>", "gi");
var precoHtml = regExp.exec(html);
var regExp = new RegExp("[0-9]*,", "gi");
precoHtml = regExp.exec(precoHtml);
var precoOutput = "BRL "+precoHtml[0].replace(",","");
resultadoArray = [codeOutput,h1Output,descriptionOutput,"Home & Garden > Kitchen & Dining > Kitchen Appliances > Coffee Makers & Espresso Machines",
"Máquina",linkDoProduto,imageOutput,"new","in stock",precoOutput,"","","","Nespresso",codeOutput];
return resultadoArray;
}
Но это очень много времени для программирования, очень трудно изменить его динамически и не очень надежно.
Мне нужен способ разобрать этот HTML и легко получить доступ к его элементам. Это на самом деле не дополнение. но простой скрипт приложения Google ..