извлечение только текста страницы с использованием HTMLAgilityPack
Итак, я действительно новичок в запросах XPath, используемых в HTMLAgilityPack.
Итак, давайте рассмотрим эту страницуhttp://health.yahoo.net/articles/healthcare/what-your-favorite-flavor-says-about-you, Что я хочу, это извлечь только содержимое страницы и ничего больше.
Поэтому для этого я сначала удаляю теги script и style.
Document = new HtmlDocument();
Document.LoadHtml(page);
TempString = new StringBuilder();
foreach (HtmlNode style in Document.DocumentNode.Descendants("style").ToArray())
{
style.Remove();
}
foreach (HtmlNode script in Document.DocumentNode.Descendants("script").ToArray())
{
script.Remove();
}
После этого я пытаюсь использовать // text (), чтобы получить все текстовые узлы.
foreach (HtmlTextNode node in Document.DocumentNode.SelectNodes("//text()"))
{
TempString.AppendLine(node.InnerText);
}
Однако не только я получаю не только текст, но и множество символов / r / n.
Пожалуйста, мне нужно небольшое руководство в этом отношении.