Resultados de la búsqueda a petición "scrapy-spider"

1 la respuesta

Pase el argumento a la araña temblorosa dentro de un script de Python

Puedo ejecutar el rastreo en un script de Python con la siguiente receta de wiki: from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider ...

1 la respuesta

Herencia múltiple en arañas temblorosas

¿Es posible crear una araña que herede la funcionalidad de dos arañas base, a saber, SitemapSpider y CrawlSpider? He estado tratando de raspar datos de varios sitios y me di cuenta de que no todos los sitios tienen una lista de todas las páginas ...

1 la respuesta

¿Cómo evitar un error twisted.internet.error.ConnectionLost al usar Scrapy?

Estoy raspando algunas páginas conscrapy [http://scrapy.org/]y obtiene el siguiente error: twisted.internet.error.ConnectionLost Mi línea de comando de salida: 2015-05-04 18:40:32+0800 [cnproxy] INFO: Spider opened 2015-05-04 ...

1 la respuesta

Scrapy: captura respuestas con códigos de servidor HTTP específicos

Tenemos un proyecto Scrapy bastante estándar (Scrapy 0.24). Me gustaría capturar códigos de respuesta HTTP específicos, como 200, 500, 502, 503, 504, etc. Algo como eso: class Spider(...): def parse(...): processes HTTP 200 def ...

1 la respuesta

Multiprocesamiento de arañas Scrapy en procesos paralelos

Hay varias preguntas similares que ya he leído en Stack Overflow. Desafortunadamente, perdí enlaces de todos ellos, porque mi historial de navegación se eliminó inesperadamente. Todas las preguntas anteriores no pudieron ayudarme. O bien, ...

1 la respuesta

Scrapy CrawlSpider retry scrape

Para una página que estoy tratando de eliminar, a veces recibo una página de "marcador de posición" en mi respuesta que contiene algunos javascript que se vuelven a cargar automáticamente hasta que llega a la página real. Puedo detectar cuándo ...

1 la respuesta

Cómo controlar el orden de rendimiento en Scrapy

¡Ayuda! Lectura del siguiente código scrapy y el resultado del rastreador. Quiero rastrear algunos datos dehttp://china.fathom.info/data/data.json [http://china.fathom.info/data/data.json], y soloScrapyesta permitido. Pero no sé cómo controlar el ...

1 la respuesta

Scrapy subir archivo

Estoy haciendo una solicitud de formulario a un sitio web usando scrapy. El formulario requiere cargar un archivo pdf, ¿Cómo podemos hacerlo en Scrapy? Estoy intentando esto como ...

1 la respuesta

scrapy: llenar elementos anidados con itemLoader

Tengo este objeto que intento completar con un elementoLoader: { "domains": "string", "date_insert": "2016-12-23T11:25:00.213Z", "title": "string", "url": "string", "body": "string", "date": "2016-12-23T11:25:00.213Z", "authors": [ "string" ], ...

1 la respuesta

Forzar Python Scrapy a no codificar URL

Hay algunas URL con[] en ella como http://www.website.com/CN.html?value_ids[]=33&value_ids[]=5007Pero cuando intento raspar esta URL con Scrapy, aparece Solicitar esta ...