Scrapy kann nicht dazu gebracht werden, 301, 302 Weiterleitungen zu analysieren und zu befolgen
Ich versuche, einen sehr einfachen Website-Crawler zu schreiben, der URLs mit Verweis- und Statuscodes für 200, 301, 302 und 404 http-Statuscodes auflistet.
Es stellt sich heraus, dass Scrapy großartig funktioniert und mein Skript es richtig verwendet, um die Website zu crawlen und ohne Probleme URLs mit 200- und 404-Statuscodes auflisten kann.
Das Problem ist Ich kann nicht finden, wie Scrapy Weiterleitungen folgen UND diese analysieren / ausgeben soll. Ich kann einen zum Arbeiten bringen, aber nicht beide.
as ich bisher ausprobiert habe:
settingmeta={'dont_redirect':True}
und EinstellungREDIRECTS_ENABLED = False
adding 301, 302 to handle_httpstatus_list
Änderung der Einstellungen in der Weiterleitungs-Middleware-Dokumentation
Lesen des Redirect-Middleware-Codes für Insight
verschiedene Kombination aller oben genannten
andere zufällige Sachen
Hier ist diepublic repo Wenn Sie sich den Code ansehen möchten.