So erhalten Sie die ursprüngliche start_url in scrapy (vor der Weiterleitung)

Question

May 30, 2013, 08:07 PM

So erhalten Sie die ursprüngliche start_url in scrapy (vor der Weiterleitung)

Ich verwende Scrapy, um einige Seiten zu crawlen. Ich rufe die start_urls von einem Excel-Blatt ab und muss die URL im Artikel speichern.

class abc_Spider(BaseSpider):
   name = 'abc'
   allowed_domains = ['abc.com']         
   wb = xlrd.open_workbook(path + '/somefile.xlsx')
   wb.sheet_names()
   sh = wb.sheet_by_name(u'Sheet1')
   first_column = sh.col_values(15)
   start_urls = first_column
   handle_httpstatus_list = [404]

   def parse(self, response):
      item = abcspiderItem()
      item['url'] = response.url

Das Problem ist, dass die URL zu einer anderen URL umgeleitet wird (und somit etwas anderes in der Antwort-URL ergibt). Wie erhalte ich die ursprüngliche URL, die ich von Excel erhalten habe?