Suchergebnisse für Anfrage "web-crawler"

2 die antwort

Wie schreibe ich Python-Scrapy-Code zum Extrahieren der in der Sitemap einer Site vorhandenen URL?

Ich versuche, diesen Code zu verwenden, um eine Liste der URLs in der Sitemap abzurufen. Wenn ich das starte, sehe ich keine Ergebnisse auf dem Bildschirm. könnte mir jemand sagen, was das Problem ist oder mir ein besseres mit gutem Beispiel ...

0 die antwort

Unterschied zwischen dem Crawlen und dem Erhalten von Links mit dem Html Agility Pack,

Ich erhalte Links von einer Website mit Html Agility Pack mit Konsolenanwendung c #, indem ich die gewünschten Divs gebe und die Links von diesen Divs erhalte. Meine Frage ist, was ich tue, ist das Crawlen oder Parsen, wenn nicht, was ist das? ...

6 die antwort

Nightmare bedingte Wartezeit ()

Ich versuche, eine Webseite mit Nightmare zu crawlen, möchte aber auf @ warte#someelem nur vorhanden sein, wenn es tatsächlich existiert. Ansonsten möchte ich, dass Nightmare weitermacht. Wie geht das mit.wait()? Ich kann nicht @ ...

TOP-Veröffentlichungen

4 die antwort

Verboten durch robots.txt: scrapy

eim Crawlen einer Website wiehttps: //www.netflix.co [https://www.netflix.com], wird von robots.txt verboten: https://www.netflix.com/> FEHLER: Keine Antwort heruntergeladen für:https: //www.netflix.com [https://www.netflix.com/]

8 die antwort

Warum kann ich mit Perls LWP :: Simple www.google.com nicht abrufen?

Ich kann nicht scheinen, dieses Stück Code zum Laufen zu bringen: $self->{_current_page} = $href; my $response = $ua->get($href); my $responseCode = $response->code; if( $responseCode ne "404" ) { my $content = LWP::Simple->get($href); die "get ...

8 die antwort

Scrapy - wie man bereits abgekratzte URLs identifiziert

Ich verwende scrapy, um täglich eine Nachrichten-Website zu crawlen. Wie kann ich verhindern, dass Scrapy bereits gescrappte URLs verschrottet? Gibt es auch eine klare Dokumentation oder Beispiele aufSgmlLinkExtractor.

2 die antwort

Warum gibt Scrapy einen Iframe zurück?

ch möchte crawlDiese Seit [http://www.ooshop.com/courses-en-ligne/Home.aspx] von Python-Scrapy ich versuche das class Parik(scrapy.Spider): name = "ooshop" allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"] def ...

4 die antwort

Kann ich mit WGET eine Sitemap einer Website erstellen, deren URL angegeben ist?

Ich benötige ein Skript, das eine Website erkennen und die Liste aller gecrawlten Seiten im Nur-Text-Format oder in einem ähnlichen Format zurückgeben kann. die ich als sitemap bei suchmaschinen einreiche. Kann ich mit WGET eine Sitemap einer ...