Ist es möglich, dass Scrapy Klartext direkt aus HTML-Rohdaten abruft, anstatt xPath-Selektoren zu verwenden?

Question

Jul 18, 2013, 01:08 PM

python html web-scraping scrapy web-crawler

Ist es möglich, dass Scrapy Klartext direkt aus HTML-Rohdaten abruft, anstatt xPath-Selektoren zu verwenden?

Beispielsweise

scrapy shell http://scrapy.org/
content = hxs.select('//*[@id="content"]').extract()[0]
print content

dann habe ich folgende rohe HTML-Codes:

<div id="content">


    <h2>Welcome to Scrapy</h2>

    <h3>What is Scrapy?</h3>

    <p>Scrapy is a fast high-level screen scraping and web crawling
    framework, used to crawl websites and extract structured data from their
    pages. It can be used for a wide range of purposes, from data mining to
    monitoring and automated testing.</p>

    <h3>Features</h3>

    <dl>

    <dt>Simple</dt><dt>
    </dt><dd>Scrapy was designed with simplicity in mind, by providing the features
    you need without getting in your way</dd>

    <dt>Productive</dt>
    <dd>Just write the rules to extract the data from web pages and let Scrapy
    crawl the entire web site for you</dd>

    <dt>Fast</dt>
    <dd>Scrapy is used in production crawlers to completely scrape more than
    500 retailer sites daily, all in one server</dd>

    <dt>Extensible</dt>
    <dd>Scrapy was designed with extensibility in mind and so it provides
    several mechanisms to plug new code without having to touch the framework
    core

    </dd><dt>Portable, open-source, 100% Python</dt>
    <dd>Scrapy is completely written in Python and runs on Linux, Windows, Mac and BSD</dd>

    <dt>Batteries included</dt>
    <dd>Scrapy comes with lots of functionality built in. Check <a href="http://doc.scrapy.org/en/latest/intro/overview.html#what-else">this
    section</a> of the documentation for a list of them.</dd>

    <dt>Well-documented &amp; well-tested</dt>
    <dd>Scrapy is <a href="/doc/">extensively documented</a> and has an comprehensive test suite
    with <a href="http://static.scrapy.org/coverage-report/">very good code
    coverage</a></dd>

    <dt><a href="/community">Healthy community</a></dt>
    <dd>
    1,500 watchers, 350 forks on Github (<a href="https://github.com/scrapy/scrapy">link</a>)<br>
    700 followers on Twitter (<a href="http://twitter.com/ScrapyProject">link</a>)<br>
    850 questions on StackOverflow (<a href="http://stackoverflow.com/tags/scrapy/info">link</a>)<br>
    200 messages per month on mailing list (<a href="https://groups.google.com/forum/?fromgroups#!aboutgroup/scrapy-users">link</a>)<br>
    40-50 users always connected to IRC channel (<a href="http://webchat.freenode.net/?channels=scrapy">link</a>)
    </dd>

    <dt><a href="/support">Commercial support</a></dt>
    <dd>A few companies provide Scrapy consulting and support</dd>

    <p>Still not sure if Scrapy is what you're looking for?. Check out <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a
    glance</a>.

    </p><h3>Companies using Scrapy</h3>

    <p>Scrapy is being used in large production environments, to crawl
    thousands of sites daily. Here is a list of <a href="/companies/">Companies
using Scrapy</a>.</p>

    <h3>Where to start?</h3>

    <p>Start by reading <a href="http://doc.scrapy.org/en/latest/intro/overview.html">Scrapy at a glance</a>,
    then <a href="/download/">download Scrapy</a> and follow the <a href="http://doc.scrapy.org/en/latest/intro/tutorial.html">Tutorial</a>.


          </p></dl></div>

----------> Ich möchte aber einfachen Text wie den folgenden direkt von scrapy erhalten: -----

Willkommen bei ScrapyWas ist Scrapy?

Scrapy ist ein schnelles High-Level-Framework für Screen Scraping und Webcrawling, mit dem Websites gecrawlt und strukturierte Daten von ihren Seiten extrahiert werden. Es kann für eine Vielzahl von Zwecken verwendet werden, von Data Mining über Überwachung bis hin zu automatisierten Tests.

EigenschafteEinfacScrapy wurde mit dem Gedanken an Einfachheit entwickelt, indem die Funktionen bereitgestellt wurden, die Sie benötigen, ohne sich in die Quere zu kommen.Produktichreiben Sie einfach die Regeln zum Extrahieren der Daten von Webseiten und lassen Sie Scrapy die gesamte Website für Sie crawleSchnelScrapy wird in Produktions-Crawlern verwendet, um täglich mehr als 500 Einzelhandelsstandorte auf einem Server vollständig zu durchsuchen. ErweiterbarScrapy wurde mit Blick auf die Erweiterbarkeit entwickelt und bietet daher verschiedene Mechanismen, um neuen Code einzufügen, ohne den Framework-Kern berühren zu müssen.Portabel, Open Source, 100% PythonScrapy ist vollständig in Python geschrieben und läuft unter Linux, Windows, Mac und BSDBatterien enthalteScrapy verfügt über zahlreiche integrierte Funktionen. Eine Liste dieser Funktionen finden Sie in diesem Abschnitt der Dokumentation. Gut dokumentiert und getestetScrapy ist umfassend dokumentiert und verfügt über eine umfassende Testsuite mitsehr gute Codeabdeckung Gesunde Gemeinschaft 1.500 Beobachter, 350 Gabeln auf Github (Link)
700 Follower auf Twitter Verknüpfun)
850 Fragen zu StackOverflow (Link)
200 Nachrichten pro Monat auf der Mailingliste (Link)
40-50 Benutzer sind immer mit dem IRC-Kanal verbunden (Link) Kommerzieller Supportinige wenige Unternehmen bieten Scrapy-Beratung und -Support a

Noch nicht sicher, ob Scrapy das ist, wonach Sie suchen ?. Schauen Sie sich Scrapy auf einen Blick an.

nternehmen, die Scrapy verwend

Scrapy wird in großen Produktionsumgebungen verwendet, um täglich Tausende von Sites zu crawlen. Hier ist eine Liste der Unternehmen, die Scrapy verwenden.

Wo soll man anfangen

Starten Sie, indem Sie Scrapy auf einen Blick lesen.download Scrapy und folge dem Tutorial.

Ich möchte keine xPath-Selektoren verwenden, um diese p-, h2-, h3- usw. Tags zu extrahieren, da ich eine Website crawle, deren Hauptinhalt in eine Tabelle eingebettet ist, tbody; rekursiv. Es kann eine mühsame Aufgabe sein, diesen xPath zu finden. Kann dies durch eine eingebaute Funktion in Scrapy implementiert werden? Oder benötige ich externe Tools, um es zu konvertieren? Ich habe alle Dokumente von Scrapy gelesen, aber nichts gewonnen. Dies ist eine Beispielseite, die rohes HTML in einfachen Text umwandeln kann:http: //beaker.mailchimp.com/html-to-tex