É possível que o Scrapy obtenha texto sem formatação diretamente dos dados brutos em html, em vez de usar os seletores xPat

Question

Jul 18, 2013, 01:08 PM

python html web-scraping scrapy web-crawler

É possível que o Scrapy obtenha texto sem formatação diretamente dos dados brutos em html, em vez de usar os seletores xPat

Por exemplo

scrapy shell http://scrapy.org/
content = hxs.select('//*[@id="content"]').extract()[0]
print content

então, eu tenho os seguintes códigos html brutos:

<div id="content">


    <h2>Welcome to Scrapy</h2>

    <h3>What is Scrapy?</h3>

    <p>Scrapy is a fast high-level screen scraping and web crawling
    framework, used to crawl websites and extract structured data from their
    pages. It can be used for a wide range of purposes, from data mining to
    monitoring and automated testing.</p>

    <h3>Features</h3>

    <dl>

    <dt>Simple</dt><dt>
    </dt><dd>Scrapy was designed with simplicity in mind, by providing the features
    you need without getting in your way</dd>

    <dt>Productive</dt>
    <dd>Just write the rules to extract the data from web pages and let Scrapy
    crawl the entire web site for you</dd>

    <dt>Fast</dt>
    <dd>Scrapy is used in production crawlers to completely scrape more than
    500 retailer sites daily, all in one server</dd>

    <dt>Extensible</dt>
    <dd>Scrapy was designed with extensibility in mind and so it provides
    several mechanisms to plug new code without having to touch the framework
    core

    </dd><dt>Portable, open-source, 100% Python</dt>
    <dd>Scrapy is completely written in Python and runs on Linux, Windows, Mac and BSD</dd>

    <dt>Batteries included</dt>
    <dd>Scrapy comes with lots of functionality built in. Check <a href="http://doc.scrapy.org/en/latest/intro/overview.html#what-else">this
    section</a> of the documentation for a list of them.</dd>

    <dt>Well-documented &amp; well-tested</dt>
    <dd>Scrapy is <a href="/doc/">extensively documented</a> and has an comprehensive test suite
    with <a href="http://static.scrapy.org/coverage-report/">very good code
    coverage</a></dd>

    <dt><a href="/community">Healthy community</a></dt>
    <dd>
    1,500 watchers, 350 forks on Github (<a href="https://github.com/scrapy/scrapy">link</a>)<br>
    700 followers on Twitter (<a href="http://twitter.com/ScrapyProject">link</a>)<br>
    850 questions on StackOverflow (<a href="http://stackoverflow.com/tags/scrapy/info">link</a>)<br>
    200 messages per month on mailing list (<a href="https://groups.google.com/forum/?fromgroups#!aboutgroup/scrapy-users">link</a>)<br>
    40-50 users always connected to IRC channel (<a href="http://webchat.freenode.net/?channels=scrapy">link</a>)
    </dd>

    <dt><a href="/support">Commercial support</a></dt>
    <dd>A few companies provide Scrapy consulting and support</dd>

    <p>Still not sure if Scrapy is what you're looking for?. Check out <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a
    glance</a>.

    </p><h3>Companies using Scrapy</h3>

    <p>Scrapy is being used in large production environments, to crawl
    thousands of sites daily. Here is a list of <a href="/companies/">Companies
using Scrapy</a>.</p>

    <h3>Where to start?</h3>

    <p>Start by reading <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a glance</a>,
    then <a href="/download/">download Scrapy</a> and follow the <a href="http://doc.scrapy.org/en/latest/intro/tutorial.html">Tutorial</a>.


          </p></dl></div>

----------> Mas eu quero obter texto simples como seguir diretamente do scrapy: -----

Bem-vindo ao ScrapyO que é Scrapy?

@Scrapy é uma estrutura rápida de rastreio de tela e rastreamento da Web de alto nível, usada para rastrear sites e extrair dados estruturados de suas páginas. Ele pode ser usado para uma ampla variedade de finalidades, da mineração de dados ao monitoramento e testes automatizado

RecursoSimple @Scrapy foi projetado com a simplicidade em mente, fornecendo os recursos que você precisa sem interferir no seu caminhoProdutiv Basta escrever as regras para extrair os dados das páginas da Web e deixar o Scrapy rastrear todo o site para vocêRápid @Scrapy é usado nos rastreadores de produção para raspar completamente mais de 500 sites de varejo diariamente, tudo em um servidorExtensíve @Scrapy foi projetado com extensibilidade em mente e, portanto, fornece vários mecanismos para conectar um novo código sem precisar tocar no núcleo da estruturaPortável, de código aberto, 100% Python Scrapy é completamente escrito em Python e roda em Linux, Windows, Mac e BSD Baterias incluídas Scrapy vem com muitas funcionalidades incorporadas. Verifique esta seção da documentação para obter uma lista dela Bem documentado e bem testado Scrapy é extensivamente documentado e possui um conjunto de testes abrangente com muito boa cobertura de código Comunidade saudável 1.500 observadores, 350 garfos no Github (link)
700 seguidores no Twitter ligaçã)
850 perguntas sobre StackOverflow (link)
200 mensagens por mês na lista de endereços (link)
40-50 usuários sempre conectados ao canal IRC (link) Suporte comercial Algumas empresas fornecem consultoria e suporte Scrapy

Ainda não tenho certeza se Scrapy é o que você está procurando? Confira o Scrapy rapidamente.

Empresas usando Scrapy

@Scrapy está sendo usado em grandes ambientes de produção, para rastrear milhares de sites diariamente. Aqui está uma lista de empresas que usam Scrapy.

Onde começar

Comece lendo Scrapy rapidamente, depoisdownload Scrapy e siga o tutorial.

Não quero usar nenhum seletor xPath para extrair as tags p, h2, h3 etc, pois estou rastreando um site cujo conteúdo principal está incorporado em uma tabela, tbody; recursivamente. Pode ser uma tarefa tediosa encontrar esses xPath. Isso pode ser implementado por uma função integrada no Scrapy? Ou preciso de ferramentas externas para convertê-lo? Eu li todos os documentos de Scrapy, mas não ganhei nada. Este é um site de exemplo que pode converter html bruto em texto sem formatação:http: //beaker.mailchimp.com/html-to-tex