извлечение только текста страницы с использованием HTMLAgilityPack

Question

Oct 13, 2013, 10:28 AM

xml-parsing xpath c#.net html-agility-pack

извлечение только текста страницы с использованием HTMLAgilityPack

Итак, я действительно новичок в запросах XPath, используемых в HTMLAgilityPack.

Итак, давайте рассмотрим эту страницуhttp://health.yahoo.net/articles/healthcare/what-your-favorite-flavor-says-about-you, Что я хочу, это извлечь только содержимое страницы и ничего больше.

Поэтому для этого я сначала удаляю теги script и style.

Document = new HtmlDocument();
        Document.LoadHtml(page);
        TempString = new StringBuilder();
        foreach (HtmlNode style in Document.DocumentNode.Descendants("style").ToArray())
        {
            style.Remove();
        }
        foreach (HtmlNode script in Document.DocumentNode.Descendants("script").ToArray())
        {
            script.Remove();
        }

После этого я пытаюсь использовать // text (), чтобы получить все текстовые узлы.

foreach (HtmlTextNode node in Document.DocumentNode.SelectNodes("//text()"))
        {
            TempString.AppendLine(node.InnerText);
        }

Однако не только я получаю не только текст, но и множество символов / r / n.

Пожалуйста, мне нужно небольшое руководство в этом отношении.

извлечение только текста страницы с использованием HTMLAgilityPack

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

извлечение только текста страницы с использованием HTMLAgilityPack

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы