Resultados de la búsqueda a petición "scrapy-spider"

2 la respuesta

Reglas dinámicas basadas en start_urls para Scrapy CrawlSpider?

Estoy escribiendo un raspador Scrapy que usa CrawlSpider para rastrear sitios, revisar sus enlaces internos y raspar el contenido de cualquier enlace externo (enlaces con un dominio diferente del dominio original). Logré hacerlo con 2 reglas, ...

2 la respuesta

Exportar archivo csv desde scrapy (no a través de la línea de comando)

Intenté con éxito exportar mis artículos a un archivo csv desde la línea de comandos como: scrapy crawl spiderName -o filename.csvMi pregunta es: ¿Cuál es la solución más fácil para hacer lo mismo en el código? Necesito esto ya que extraigo el ...

2 la respuesta

Scrapy: extrae enlaces y texto

Soy nuevo en scrapy y estoy tratando de raspar la página web del sitio web de Ikea. La página básica con la lista de ubicaciones como se indicaaquí [http://www.ikea.com/]. Miitems.pyel archivo se da a continuación: import scrapy class ...

1 la respuesta

Pase el argumento a la araña temblorosa dentro de un script de Python

Puedo ejecutar el rastreo en un script de Python con la siguiente receta de wiki: from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider ...

1 la respuesta

Herencia múltiple en arañas temblorosas

¿Es posible crear una araña que herede la funcionalidad de dos arañas base, a saber, SitemapSpider y CrawlSpider? He estado tratando de raspar datos de varios sitios y me di cuenta de que no todos los sitios tienen una lista de todas las páginas ...

1 la respuesta

¿Cómo evitar un error twisted.internet.error.ConnectionLost al usar Scrapy?

Estoy raspando algunas páginas conscrapy [http://scrapy.org/]y obtiene el siguiente error: twisted.internet.error.ConnectionLost Mi línea de comando de salida: 2015-05-04 18:40:32+0800 [cnproxy] INFO: Spider opened 2015-05-04 ...

1 la respuesta

Scrapy: captura respuestas con códigos de servidor HTTP específicos

Tenemos un proyecto Scrapy bastante estándar (Scrapy 0.24). Me gustaría capturar códigos de respuesta HTTP específicos, como 200, 500, 502, 503, 504, etc. Algo como eso: class Spider(...): def parse(...): processes HTTP 200 def ...

1 la respuesta

Multiprocesamiento de arañas Scrapy en procesos paralelos

Hay varias preguntas similares que ya he leído en Stack Overflow. Desafortunadamente, perdí enlaces de todos ellos, porque mi historial de navegación se eliminó inesperadamente. Todas las preguntas anteriores no pudieron ayudarme. O bien, ...

1 la respuesta

Scrapy CrawlSpider retry scrape

Para una página que estoy tratando de eliminar, a veces recibo una página de "marcador de posición" en mi respuesta que contiene algunos javascript que se vuelven a cargar automáticamente hasta que llega a la página real. Puedo detectar cuándo ...

1 la respuesta

Cómo controlar el orden de rendimiento en Scrapy

¡Ayuda! Lectura del siguiente código scrapy y el resultado del rastreador. Quiero rastrear algunos datos dehttp://china.fathom.info/data/data.json [http://china.fathom.info/data/data.json], y soloScrapyesta permitido. Pero no sé cómo controlar el ...