Czy to możliwe, że Scrapy pobiera bezpośrednio zwykły tekst z surowych danych HTML zamiast używania selektorów xPath?

Question

Jul 18, 2013, 01:08 PM

python html web-scraping scrapy web-crawler

Czy to możliwe, że Scrapy pobiera bezpośrednio zwykły tekst z surowych danych HTML zamiast używania selektorów xPath?

Na przykład

scrapy shell http://scrapy.org/
content = hxs.select('//*[@id="content"]').extract()[0]
print content

otrzymałem następujące nieprzetworzone kody HTML:

<div id="content">


    <h2>Welcome to Scrapy</h2>

    <h3>What is Scrapy?</h3>

    <p>Scrapy is a fast high-level screen scraping and web crawling
    framework, used to crawl websites and extract structured data from their
    pages. It can be used for a wide range of purposes, from data mining to
    monitoring and automated testing.</p>

    <h3>Features</h3>

    <dl>

    <dt>Simple</dt><dt>
    </dt><dd>Scrapy was designed with simplicity in mind, by providing the features
    you need without getting in your way</dd>

    <dt>Productive</dt>
    <dd>Just write the rules to extract the data from web pages and let Scrapy
    crawl the entire web site for you</dd>

    <dt>Fast</dt>
    <dd>Scrapy is used in production crawlers to completely scrape more than
    500 retailer sites daily, all in one server</dd>

    <dt>Extensible</dt>
    <dd>Scrapy was designed with extensibility in mind and so it provides
    several mechanisms to plug new code without having to touch the framework
    core

    </dd><dt>Portable, open-source, 100% Python</dt>
    <dd>Scrapy is completely written in Python and runs on Linux, Windows, Mac and BSD</dd>

    <dt>Batteries included</dt>
    <dd>Scrapy comes with lots of functionality built in. Check <a href="http://doc.scrapy.org/en/latest/intro/overview.html#what-else">this
    section</a> of the documentation for a list of them.</dd>

    <dt>Well-documented &amp; well-tested</dt>
    <dd>Scrapy is <a href="/doc/">extensively documented</a> and has an comprehensive test suite
    with <a href="http://static.scrapy.org/coverage-report/">very good code
    coverage</a></dd>

    <dt><a href="/community">Healthy community</a></dt>
    <dd>
    1,500 watchers, 350 forks on Github (<a href="https://github.com/scrapy/scrapy">link</a>)<br>
    700 followers on Twitter (<a href="http://twitter.com/ScrapyProject">link</a>)<br>
    850 questions on StackOverflow (<a href="http://stackoverflow.com/tags/scrapy/info">link</a>)<br>
    200 messages per month on mailing list (<a href="https://groups.google.com/forum/?fromgroups#!aboutgroup/scrapy-users">link</a>)<br>
    40-50 users always connected to IRC channel (<a href="http://webchat.freenode.net/?channels=scrapy">link</a>)
    </dd>

    <dt><a href="/support">Commercial support</a></dt>
    <dd>A few companies provide Scrapy consulting and support</dd>

    <p>Still not sure if Scrapy is what you're looking for?. Check out <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a
    glance</a>.

    </p><h3>Companies using Scrapy</h3>

    <p>Scrapy is being used in large production environments, to crawl
    thousands of sites daily. Here is a list of <a href="/companies/">Companies
using Scrapy</a>.</p>

    <h3>Where to start?</h3>

    <p>Start by reading <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a glance</a>,
    then <a href="/download/">download Scrapy</a> and follow the <a href="http://doc.scrapy.org/en/latest/intro/tutorial.html">Tutorial</a>.


          </p></dl></div>

----------> Ale chcę uzyskać zwykły tekst, taki jak następujący bezpośrednio ze złomowania: -----

Witamy w ScrapyCo to jest złomowanie?

Scrapy to szybkie środowisko do zrzucania ekranu i indeksowania stron internetowych, służące do indeksowania stron internetowych i wydobywania uporządkowanych danych z ich stron. Może być wykorzystywany do wielu celów, od eksploracji danych po monitorowanie i automatyczne testowani

CechProstScrapy został zaprojektowany z myślą o prostocie, zapewniając niezbędne funkcje bez wchodzenia ci w drogęProduktywn Wystarczy napisać zasady, aby wyodrębnić dane ze stron internetowych i pozwolić Scrapy zaindeksować dla ciebie całą stronę internetowąSzybkScrapy jest używany w robotach indeksujących do całkowitego zeskrobywania ponad 500 witryn sprzedawców dziennie, wszystko na jednym serwerzeRozciągliwScrapy został zaprojektowany z myślą o rozszerzalności, dlatego zapewnia kilka mechanizmów podłączania nowego kodu bez konieczności dotykania rdzenia ramy Przenośny, open source, 100% PythonScrapy jest całkowicie napisany w Pythonie i działa na systemach Linux, Windows, Mac i BSDZawiera bateriScrapy ma wiele wbudowanych funkcji. Sprawdź w tej sekcji dokumentacji ich listę. Dobrze udokumentowane i dobrze przetestowaneScrapy jest obszernie udokumentowane i ma kompleksowy pakiet testów z bardzo dobry zasięg kodu Zdrowa społeczność 1500 obserwatorów, 350 widelców na Githubie (link)
700 obserwujących na Twitterze połączy)
850 pytań na temat StackOverflow (link)
200 wiadomości na miesiąc na liście mailingowej (link)
40-50 użytkowników zawsze podłączonych do kanału IRC (link) Wsparcie handlowe Kilka firm zapewnia doradztwo i wsparcie w zakresie złomowania

Nie wiem, czy Scrapy jest tym, czego szukasz ?. Sprawdź Scrapy w skrócie.

Firmy korzystające ze Scrapy

Scrapy jest używany w dużych środowiskach produkcyjnych, aby codziennie indeksować tysiące witryn. Oto lista firm korzystających ze złomowania.

Gdzie zacząć

Zacznij od przeczytania Skrobaczki na pierwszy rzut oka, a następnie pobierz Scrapy i postępuj zgodnie z samouczkiem.

Nie chcę używać żadnych selektorów xPath do wyodrębniania tagów p, h2, h3 itp., Ponieważ indeksuję witrynę, której główna zawartość jest osadzona w tabeli, tbody; rekurencyjnie. Znalezienie tych xPath może być żmudnym zadaniem. Czy można to zaimplementować za pomocą wbudowanej funkcji Scrapy? Czy potrzebuję zewnętrznych narzędzi do konwersji? Przeczytałem wszystkie dokumenty Skrapy, ale nic nie zyskałem. To jest przykładowa strona, która może konwertować surowy HTML na zwykły tekst:http: //beaker.mailchimp.com/html-to-tex