Resultados de la búsqueda a petición "scrapy"
Evitar la redirección
Estoy intentando analizar un sitio (escrito en ASP) y el rastreador se redirige al sitio principal. Pero lo que me gustaría hacer es analizar la URL dada, no la redirigida. ¿Hay alguna forma de hacer esto?. Intenté agregar "REDIRECT = False" al ...
Ejecución de tareas Scrapy en Python
Mi script Scrapy parece funcionar bien cuando lo ejecuto en escenarios 'únicos' desde la línea de comando, pero si trato de ejecutar el código dos veces en la misma sesión de Python me sale este error: "ReactorNotRestartable" ¿Por qué El ...
Cómo combinar scrapy y htmlunit para rastrear URL con javascript
Estoy trabajando en Scrapy para rastrear páginas, sin embargo, no puedo manejar las páginas con javascript. La gente me sugiere que use htmlunit, así que lo instalé, pero no sé cómo usarlo. ¿Alguien puede darme un ejemplo (scrapy + htmlunit)? ...
using tor con el framework scrapy
stoy tratando de rastrear el sitio web, que es lo suficientemente sofisticado como para detener los bots, quiero decir que solo permite algunas solicitudes, después de que Scrapy se cuelgu Pregunta 1: ¿hay alguna manera de que, si Scrapy se ...
¿Lista de lectura de URLs desde el archivo a raspa
Acabo de instalar scrapy y seguí su simple dmoztutoria [http://doc.scrapy.org/en/latest/intro/tutorial.html] que funciona. Solo busqué el manejo básico de archivos para python e intenté que el rastreador leyera una lista de URL de un archivo, ...
¿Cómo combino los resultados de la página de destino a la página actual en scrapy?
Necesita un ejemplo en scrapy sobre cómo obtener un enlace de una página, luego sigue este enlace, obtén más información de la página vinculada y vuelve a combinar con algunos datos de la primera página ... Gracia
Se puede utilizar scrapy para raspar contenido dinámico de sitios web que usan AJAX?
He estado aprendiendo Python recientemente y estoy sumergiendo mi mano en la construcción de un raspador de web. No es nada lujoso en absoluto; su único propósito es obtener los datos de un sitio web de apuestas y tener estos datos en Excel. La ...
Acceso cookie de sesión en arañas temblorosas
Estoy intentando acceder a la cookie de sesión dentro de una araña. Primero inicio sesión en una red social usando una araña: def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': ...
Preservación de saltos de línea al analizar con Scrapy en Python
He escrito una araña Scrapy que extrae texto de una página. La araña analiza y emite correctamente en muchas de las páginas, pero algunas lo descartan. Estoy tratando de mantener los saltos de línea y el formato en el documento. ...
¿Cómo volver a intentar el enlace 404 que no se encuentra en scrapy?
Algunos sitios dan un error 404 temporalmente. Pero pego en el navegador funciona. Cómo decirle a Scrapy que vuelva a intentar los enlaces del código de estado 404 5 veces.