Resultados de la búsqueda a petición "scrapy"

2 la respuesta

Evitar la redirección

Estoy intentando analizar un sitio (escrito en ASP) y el rastreador se redirige al sitio principal. Pero lo que me gustaría hacer es analizar la URL dada, no la redirigida. ¿Hay alguna forma de hacer esto?. Intenté agregar "REDIRECT = False" al ...

4 la respuesta

Ejecución de tareas Scrapy en Python

Mi script Scrapy parece funcionar bien cuando lo ejecuto en escenarios 'únicos' desde la línea de comando, pero si trato de ejecutar el código dos veces en la misma sesión de Python me sale este error: "ReactorNotRestartable" ¿Por qué El ...

2 la respuesta

Cómo combinar scrapy y htmlunit para rastrear URL con javascript

Estoy trabajando en Scrapy para rastrear páginas, sin embargo, no puedo manejar las páginas con javascript. La gente me sugiere que use htmlunit, así que lo instalé, pero no sé cómo usarlo. ¿Alguien puede darme un ejemplo (scrapy + htmlunit)? ...

1 la respuesta

using tor con el framework scrapy

stoy tratando de rastrear el sitio web, que es lo suficientemente sofisticado como para detener los bots, quiero decir que solo permite algunas solicitudes, después de que Scrapy se cuelgu Pregunta 1: ¿hay alguna manera de que, si Scrapy se ...

6 la respuesta

¿Lista de lectura de URLs desde el archivo a raspa

Acabo de instalar scrapy y seguí su simple dmoztutoria [http://doc.scrapy.org/en/latest/intro/tutorial.html] que funciona. Solo busqué el manejo básico de archivos para python e intenté que el rastreador leyera una lista de URL de un archivo, ...

8 la respuesta

¿Cómo combino los resultados de la página de destino a la página actual en scrapy?

Necesita un ejemplo en scrapy sobre cómo obtener un enlace de una página, luego sigue este enlace, obtén más información de la página vinculada y vuelve a combinar con algunos datos de la primera página ... Gracia

16 la respuesta

Se puede utilizar scrapy para raspar contenido dinámico de sitios web que usan AJAX?

He estado aprendiendo Python recientemente y estoy sumergiendo mi mano en la construcción de un raspador de web. No es nada lujoso en absoluto; su único propósito es obtener los datos de un sitio web de apuestas y tener estos datos en Excel. La ...

4 la respuesta

Acceso cookie de sesión en arañas temblorosas

Estoy intentando acceder a la cookie de sesión dentro de una araña. Primero inicio sesión en una red social usando una araña: def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': ...

4 la respuesta

Preservación de saltos de línea al analizar con Scrapy en Python

He escrito una araña Scrapy que extrae texto de una página. La araña analiza y emite correctamente en muchas de las páginas, pero algunas lo descartan. Estoy tratando de mantener los saltos de línea y el formato en el documento. ...

2 la respuesta

¿Cómo volver a intentar el enlace 404 que no se encuentra en scrapy?

Algunos sitios dan un error 404 temporalmente. Pero pego en el navegador funciona. Cómo decirle a Scrapy que vuelva a intentar los enlaces del código de estado 404 5 veces.