¿Es posible que Scrapy obtenga texto sin formato de datos html sin procesar directamente en lugar de usar selectores xPath?

Question

Jul 18, 2013, 01:08 PM

python html web-scraping scrapy web-crawler

¿Es posible que Scrapy obtenga texto sin formato de datos html sin procesar directamente en lugar de usar selectores xPath?

Por ejemplo

scrapy shell http://scrapy.org/
content = hxs.select('//*[@id="content"]').extract()[0]
print content

entonces, obtuve los siguientes códigos html sin procesar:

<div id="content">


    <h2>Welcome to Scrapy</h2>

    <h3>What is Scrapy?</h3>

    <p>Scrapy is a fast high-level screen scraping and web crawling
    framework, used to crawl websites and extract structured data from their
    pages. It can be used for a wide range of purposes, from data mining to
    monitoring and automated testing.</p>

    <h3>Features</h3>

    <dl>

    <dt>Simple</dt><dt>
    </dt><dd>Scrapy was designed with simplicity in mind, by providing the features
    you need without getting in your way</dd>

    <dt>Productive</dt>
    <dd>Just write the rules to extract the data from web pages and let Scrapy
    crawl the entire web site for you</dd>

    <dt>Fast</dt>
    <dd>Scrapy is used in production crawlers to completely scrape more than
    500 retailer sites daily, all in one server</dd>

    <dt>Extensible</dt>
    <dd>Scrapy was designed with extensibility in mind and so it provides
    several mechanisms to plug new code without having to touch the framework
    core

    </dd><dt>Portable, open-source, 100% Python</dt>
    <dd>Scrapy is completely written in Python and runs on Linux, Windows, Mac and BSD</dd>

    <dt>Batteries included</dt>
    <dd>Scrapy comes with lots of functionality built in. Check <a href="http://doc.scrapy.org/en/latest/intro/overview.html#what-else">this
    section</a> of the documentation for a list of them.</dd>

    <dt>Well-documented &amp; well-tested</dt>
    <dd>Scrapy is <a href="/doc/">extensively documented</a> and has an comprehensive test suite
    with <a href="http://static.scrapy.org/coverage-report/">very good code
    coverage</a></dd>

    <dt><a href="/community">Healthy community</a></dt>
    <dd>
    1,500 watchers, 350 forks on Github (<a href="https://github.com/scrapy/scrapy">link</a>)<br>
    700 followers on Twitter (<a href="http://twitter.com/ScrapyProject">link</a>)<br>
    850 questions on StackOverflow (<a href="http://stackoverflow.com/tags/scrapy/info">link</a>)<br>
    200 messages per month on mailing list (<a href="https://groups.google.com/forum/?fromgroups#!aboutgroup/scrapy-users">link</a>)<br>
    40-50 users always connected to IRC channel (<a href="http://webchat.freenode.net/?channels=scrapy">link</a>)
    </dd>

    <dt><a href="/support">Commercial support</a></dt>
    <dd>A few companies provide Scrapy consulting and support</dd>

    <p>Still not sure if Scrapy is what you're looking for?. Check out <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a
    glance</a>.

    </p><h3>Companies using Scrapy</h3>

    <p>Scrapy is being used in large production environments, to crawl
    thousands of sites daily. Here is a list of <a href="/companies/">Companies
using Scrapy</a>.</p>

    <h3>Where to start?</h3>

    <p>Start by reading <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a glance</a>,
    then <a href="/download/">download Scrapy</a> and follow the <a href="http://doc.scrapy.org/en/latest/intro/tutorial.html">Tutorial</a>.


          </p></dl></div>

----------> Pero quiero obtener texto plano como el siguiente directamente desde scrapy: -----

Bienvenido a Scrapy ¿Qué es Scrapy?

Scrapy es un marco rápido de raspado de pantalla de alto nivel y rastreo web, utilizado para rastrear sitios web y extraer datos estructurados de sus páginas. Se puede usar para una amplia gama de propósitos, desde minería de datos hasta monitoreo y pruebas automatizadas.

CaracteristicaSimplScrapy fue diseñado teniendo en cuenta la simplicidad, al proporcionar las funciones que necesita sin interponerse en su caminoProductivSolo escriba las reglas para extraer los datos de las páginas web y deje que Scrapy rastree todo el sitio web por ustedRápidScrapy se utiliza en rastreadores de producción para raspar completamente más de 500 sitios de minoristas diariamente, todo en un servidorExtensiblScrapy se diseñó teniendo en cuenta la extensibilidad y, por lo tanto, proporciona varios mecanismos para conectar el nuevo código sin tener que tocar el marco central Portátil, de código abierto, 100% PythonScrapy está completamente escrito en Python y se ejecuta en Linux, Windows, Mac y BSDBaterias incluidaScrapy viene con muchas funciones integradas. Consulte esta sección de la documentación para obtener una lista de ellas. Bien documentado y bien probadoScrapy está ampliamente documentado y tiene un conjunto de pruebas completo concobertura de código muy buena Comunidad saludable 1,500 observadores, 350 tenedores en Github (enlace)
700 seguidores en Twitter enlaza)
850 preguntas sobre StackOverflow (enlace)
200 mensajes por mes en la lista de correo (enlace)
40-50 usuarios siempre conectados al canal IRC (enlace) Soporte comercialAlgunas compañías brindan consultoría y soporte Scrapy

Todavía no estás seguro de si Scrapy es lo que estás buscando? Echa un vistazo a Scrapy de un vistazo.

Empresas que usan Scrapy

Scrapy se está utilizando en grandes entornos de producción, para rastrear miles de sitios a diario. Aquí hay una lista de compañías que usan Scrapy.

¿Donde empezar

Comience leyendo Scrapy de un vistazo, luegodownload Scrapy y sigue el Tutorial.

No quiero usar ningún selector de xPath para extraer esas etiquetas p, h2, h3, etc., ya que estoy rastreando un sitio web cuyo contenido principal está incrustado en una tabla, tbody; recursivamente. Puede ser una tarea tediosa encontrar esos xPath. ¿Puede implementarse esto mediante una función integrada en Scrapy? ¿O necesito herramientas externas para convertirlo? He leído todos los documentos de Scrapy, pero no he ganado nada. Este es un sitio de muestra que puede convertir HTML sin formato en texto sin formato:http: //beaker.mailchimp.com/html-to-tex