Scrapy Python Konfiguracja agenta użytkownika

Question

Sep 20, 2013, 05:52 PM

web-crawler python user-agent screen-scraping scrapy

Scrapy Python Konfiguracja agenta użytkownika

Próbowałem zastąpić agenta użytkownika mojego przemierzacza, dodając dodatkową linię do projektuplik konfiguracyjny. Oto kod:

[settings]
default = myproject.settings
USER_AGENT = "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36"


[deploy]
#url = http://localhost:6800/
project = myproject

Ale kiedy uruchomię robota na mojej własnej sieci, zauważę, że pająk nie odebrał mojego dostosowanego agenta użytkownika, ale domyślnego „Scrapy / 0.18.2 (+http://scrapy.org). ”Czy ktoś może wyjaśnić, co zrobiłem źle.

Uwaga:

(1). Działa, gdy próbowałem przesłonićagent użytkownika na całym świecie:

scrapy crawl myproject.com -o output.csv -t csv -s USER_AGENT="Mozilla...."

(2). Gdy usuwam wiersz „default = myproject.setting” z pliku konfiguracyjnego i uruchamiam indeksowanie myproject.com, pojawia się komunikat „nie można znaleźć spider ..”, więc czuję, że w tym przypadku nie należy usuwać domyślnego ustawienia.

Wielkie dzięki za pomoc z góry.