Возможно ли, что Scrapy получит простой текст из необработанных HTML-данных напрямую, а не с помощью селекторов xPath?

Question

Jul 18, 2013, 01:08 PM

python html web-scraping scrapy web-crawler

Возможно ли, что Scrapy получит простой текст из необработанных HTML-данных напрямую, а не с помощью селекторов xPath?

Например

scrapy shell http://scrapy.org/
content = hxs.select('//*[@id="content"]').extract()[0]
print content

тогда я получил следующие необработанные HTML-коды:

<div id="content">


    <h2>Welcome to Scrapy</h2>

    <h3>What is Scrapy?</h3>

    <p>Scrapy is a fast high-level screen scraping and web crawling
    framework, used to crawl websites and extract structured data from their
    pages. It can be used for a wide range of purposes, from data mining to
    monitoring and automated testing.</p>

    <h3>Features</h3>

    <dl>

    <dt>Simple</dt><dt>
    </dt><dd>Scrapy was designed with simplicity in mind, by providing the features
    you need without getting in your way</dd>

    <dt>Productive</dt>
    <dd>Just write the rules to extract the data from web pages and let Scrapy
    crawl the entire web site for you</dd>

    <dt>Fast</dt>
    <dd>Scrapy is used in production crawlers to completely scrape more than
    500 retailer sites daily, all in one server</dd>

    <dt>Extensible</dt>
    <dd>Scrapy was designed with extensibility in mind and so it provides
    several mechanisms to plug new code without having to touch the framework
    core

    </dd><dt>Portable, open-source, 100% Python</dt>
    <dd>Scrapy is completely written in Python and runs on Linux, Windows, Mac and BSD</dd>

    <dt>Batteries included</dt>
    <dd>Scrapy comes with lots of functionality built in. Check <a href="http://doc.scrapy.org/en/latest/intro/overview.html#what-else">this
    section</a> of the documentation for a list of them.</dd>

    <dt>Well-documented &amp; well-tested</dt>
    <dd>Scrapy is <a href="/doc/">extensively documented</a> and has an comprehensive test suite
    with <a href="http://static.scrapy.org/coverage-report/">very good code
    coverage</a></dd>

    <dt><a href="/community">Healthy community</a></dt>
    <dd>
    1,500 watchers, 350 forks on Github (<a href="https://github.com/scrapy/scrapy">link</a>)<br>
    700 followers on Twitter (<a href="http://twitter.com/ScrapyProject">link</a>)<br>
    850 questions on StackOverflow (<a href="http://stackoverflow.com/tags/scrapy/info">link</a>)<br>
    200 messages per month on mailing list (<a href="https://groups.google.com/forum/?fromgroups#!aboutgroup/scrapy-users">link</a>)<br>
    40-50 users always connected to IRC channel (<a href="http://webchat.freenode.net/?channels=scrapy">link</a>)
    </dd>

    <dt><a href="/support">Commercial support</a></dt>
    <dd>A few companies provide Scrapy consulting and support</dd>

    <p>Still not sure if Scrapy is what you're looking for?. Check out <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a
    glance</a>.

    </p><h3>Companies using Scrapy</h3>

    <p>Scrapy is being used in large production environments, to crawl
    thousands of sites daily. Here is a list of <a href="/companies/">Companies
using Scrapy</a>.</p>

    <h3>Where to start?</h3>

    <p>Start by reading <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a glance</a>,
    then <a href="/download/">download Scrapy</a> and follow the <a href="http://doc.scrapy.org/en/latest/intro/tutorial.html">Tutorial</a>.


          </p></dl></div>

----------> Но я хочу получить простой текст, такой как следующий, прямо из скрапа: -----

Добро пожаловать в Scrapy Что такое Scrapy?

Scrapy - это быстрый высокоуровневый фреймворк для сканирования экрана и веб-сканирования, используемый для сканирования веб-сайтов и извлечения структурированных данных из их страниц. Он может использоваться для самых разных целей, от интеллектуального анализа данных до мониторинга и автоматического тестирования.

ОсобенностПростScrapy был разработан с учетом простоты, предоставляя необходимые функции, не мешая вам Продуктивное Просто напишите правила извлечения данных с веб-страниц и дайте Scrapy сканировать весь веб-сайт за ваБыстрScrapy используется в производственных сканерах для полной очистки более 500 розничных сайтов в день, все на одном сервере ExtensibleScrapy был разработан с учетом расширяемости и поэтому предоставляет несколько механизмов для вставки нового кода без необходимости затрагивать ядро фреймворк Портативный, с открытым исходным кодом, 100% PythonScrapy полностью написана на Python и работает на Linux, Windows, Mac и BSD Батареи включеныScrapy поставляется со множеством встроенных функций. Просмотрите этот раздел документации, чтобы получить их список. Хорошо документировано и хорошо протестировано Scrapy тщательно документирован и имеет комплексный набор тестов с очень хорошее покрытие кода Здоровое сообщество 1500 наблюдателей, 350 вилок на Github (ссылка)
700 подписчиков в Твиттере ссылк)
850 вопросов по StackOverflow (ссылка)
200 сообщений в месяц в списке рассылки (ссылка)
40-50 пользователей всегда подключены к каналу IRC (ссылка) Коммерческая поддержка Несколько компаний предоставляют консультации и поддержку Scrapy

До сих пор не уверен, что Scrapy - это то, что ты ищешь? Проверьте Scrapy с первого взгляда.

Компании, использующие Scrapy

Scrapy используется в больших производственных средах для ежедневного сканирования тысяч сайтов. Вот список компаний, использующих Scrapy.

Когда начать

Начните с чтения Scrapy с первого взгляда, затем Скачать Scrapy и следуйте инструкциям.

Я не хочу использовать селекторы xPath для извлечения тегов p, h2, h3 и т. Д., Так как я сканирую веб-сайт, основное содержание которого встроено в таблицу, tbody; рекурсивно. Найти эти xPath может быть утомительным занятием. Может ли это быть реализовано встроенной функцией в Scrapy? Или мне нужны внешние инструменты для его преобразования? Я прочитал все документы Scrapy, но ничего не получил. Это пример сайта, который может конвертировать сырой HTML в простой текст:http: //beaker.mailchimp.com/html-to-tex

Возможно ли, что Scrapy получит простой текст из необработанных HTML-данных напрямую, а не с помощью селекторов xPath?

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Возможно ли, что Scrapy получит простой текст из необработанных HTML-данных напрямую, а не с помощью селекторов xPath?

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы