Como acessar um start_url específico em um Scrapy CrawlSpider?

Question

May 15, 2012, 12:22 PM

Como acessar um start_url específico em um Scrapy CrawlSpider?

Estou usando o Scrapy, em particular o Scrapy'sCrawlSpider classe para raspar links da web que contenham certas palavras-chave. Eu tenho um bom tempostart_urls lista que recebe suas entradas de um banco de dados SQLite que está conectado a um projeto Django. Eu quero salvar os links da web raspados neste banco de dados.

Eu tenho dois modelos do Django, um para os URLs de início, comohttp://example.com e um para os links da web raspados, comohttp://example.com/website1, http://example.com/website2 etc. Todos os links da Web raspados são subsites de um dos URLs de início nostart_urls Lista.

O modelo de links da web tem uma relação de muitos para um com o modelo de URL de início, ou seja, o modelo de links da web tem um modelo Estrangeiro para o URL de início. Para salvar meus links da Web raspados corretamente no banco de dados, preciso informar oCrawlSpider'sparse_item() método que inicie o url que o link da web raspado pertence. Como eu posso fazer isso? Scrapy'sDjangoItem A classe não ajuda nesse aspecto, pois ainda tenho que definir o URL de início usado explicitamente.

Em outras palavras, como posso passar o URL de início usado atualmente para oparse_item() método, para que eu possa salvá-lo junto com os links apropriados da web para o banco de dados? Alguma ideia? Desde já, obrigado!