¿Cómo acceder a un start_url específico en un Scrapy CrawlSpider?

Question

May 15, 2012, 12:22 PM

¿Cómo acceder a un start_url específico en un Scrapy CrawlSpider?

Estoy usando Scrapy, en particular Scrapy'sCrawlSpider Clase para raspar enlaces web que contienen ciertas palabras clave. Tengo un tiempo bastante largostart_urls lista que obtiene sus entradas de una base de datos SQLite que está conectada a un proyecto Django. Quiero guardar los enlaces web raspados en esta base de datos.

Tengo dos modelos Django, uno para las URL de inicio, comohttp://example.com y uno para los enlaces web raspados comohttp://example.com/website1, http://example.com/website2 Todos los enlaces web raspados son subsitios de una de las URL de inicio en elstart_urls lista.

El modelo de enlaces web tiene una relación de muchos a uno con el modelo de inicio de url, es decir, el modelo de enlaces web tiene una clave de Foreignkey para el inicio de urls. Para guardar correctamente mis enlaces web raspados a la base de datos, necesito informar a laCrawlSpideresparse_item() Método al que pertenece url al que pertenece el enlace web raspado. ¿Cómo puedo hacer eso? De ScrapyDjangoItem La clase no ayuda a este respecto, ya que todavía tengo que definir la url de inicio utilizada explícitamente.

En otras palabras, ¿cómo puedo pasar la URL de inicio utilizada actualmente a laparse_item() ¿Cómo puedo guardarlo junto con los enlaces web raspados apropiados a la base de datos? ¿Algunas ideas? ¡Gracias por adelantado!