Resultados de la búsqueda a petición "scrapy"

3 la respuesta

Extraiga el contenido de JavaScript de varias líneas de la etiqueta <script> con Scrapy

Estoy tratando de extraer datos de esta etiqueta de script usando Scrapy: <script> var hardwareTemplateFunctions; var storefrontContextUrl = ''; jq(function() { var data = new Object(); data.hardwareProductCode = '9054832'; data.offeringCode = ...

1 la respuesta

Límite de profundidad del conjunto fragmentado por dominios permitidos

Estoy rastreando 6 dominios permitidos diferentes y me gustaría limitar la profundidad de 1 dominio. ¿Cómo haría para limitar la profundidad de ese dominio 1 en scrapy? ¿O sería posible rastrear solo 1 profundidad de un dominio externo?

2 la respuesta

Geopy: error de tiempo de espera de captura

Estoy usando geopy para geocodificar algunas direcciones y quiero detectar los errores de tiempo de espera e imprimirlos para poder hacer un control de calidad en la entrada. Estoy poniendo la solicitud de geocodificación en un intento / captura ...

0 la respuesta

Importar archivo de elementos en otro script en python

Estoy tratando de hacer lo siguiente: Una araña raspa los enlaces presentes en la página web de un sitio web.Guarda los enlaces en un archivo de texto.Otra araña ahora abre el archivo de texto y lee los enlaces y raspa las páginas web ...

2 la respuesta

¿Scrab grab div con múltiples clases?

Estoy tratando de agarrar div con la clase: 'producto'. El problema es que algunos de los div con la clase 'product' también tienen la clase 'product-small'. Entonces cuando usoxpath('//div[@class='product']'), solo captura los divs con una clase ...

2 la respuesta

Scrapy: Pase argumentos a cmdline.execute ()

Sé cómo pasar argumentos al ejecutar una araña temblorosa desde la línea de comando. Sin embargo, tengo problemas al intentar ejecutarlo programáticamente desde un script usando cmdline.execute () de scrapy. Los argumentos que necesito pasar son ...

2 la respuesta

Scrapy con selenio para una página web que requiere autenticación

Estoy tratando de raspar datos de una página que tiene muchas llamadas AJAX y ejecución de JavaScript para representar la página web, así que estoy tratando de usar scrapy con selenio para hacer esto. El modus operandi es el siguiente: Agregue ...

2 la respuesta

scrapy json genera todos los elementos en una línea

Estoy tratando de que mi salida se vea como la siguiente en formato json. {"loser": "De Schepper K." ,"winner": "Herbert P.", "url": "https://www.sofascore.com/tennis/2018-02-07"}Pero actualmente estoy obteniendo líneas individuales para cada ...

1 la respuesta

Pase el argumento a la araña temblorosa dentro de un script de Python

Puedo ejecutar el rastreo en un script de Python con la siguiente receta de wiki: from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider ...

1 la respuesta

Herencia múltiple en arañas temblorosas

¿Es posible crear una araña que herede la funcionalidad de dos arañas base, a saber, SitemapSpider y CrawlSpider? He estado tratando de raspar datos de varios sitios y me di cuenta de que no todos los sitios tienen una lista de todas las páginas ...