Resultados de la búsqueda a petición "web-scraping"

2 la respuesta

Raspar una aplicación AngularJS

Estoy descartando algunas páginas HTML con Rails, usando Nokogiri. Tuve algunos problemas cuando intenté eliminar una página de AngularJS porque la gema está abriendo el HTML antes de que se haya procesado por completo. ¿Hay alguna forma de ...

4 la respuesta

¿Cómo usar las solicitudes de Python para falsificar una visita al navegador?

Quiero obtener el contenido del siguiente sitio web. Si uso un navegador como Firefox o Chrome, podría obtener la página web real que quiero, pero si uso el paquete de solicitudes Python (owget comando) para obtenerlo, devuelve una página HTML ...

1 la respuesta

Scrapy con Selenium arrastrándose pero no raspando

He leído todos los hilos sobre el uso de scrapy para páginas AJAX e instalé selenio webdrive para simplificar la tarea, mi araña puede rastrear parcialmente pero no puede ingresar ningún dato en mis elementos. Mis objetivos son: Rastrear ...

1 la respuesta

Hermoso orden de aparición de etiquetas

Considere la siguiente situación: tag1 = soup.find(**data_attrs) tag2 = soup.find(**delim_attrs)¿Hay alguna forma de averiguar qué etiqueta ocurrió "primero" en la página? Aclaraciones: Para mis propósitos, el orden es el mismo que el método ...

1 la respuesta

¿Cómo recuperar información sobre revistas de ISI Web of Knowledge?

Estoy trabajando en algún trabajo de predicción de citas para artículos. El problema que tengo es que necesito información sobre revistas de ISI Web of Knowledge. Están recopilando esta información (factor de impacto de la revista, factor propio, ...

2 la respuesta

Scrapy: extrae enlaces y texto

Soy nuevo en scrapy y estoy tratando de raspar la página web del sitio web de Ikea. La página básica con la lista de ubicaciones como se indicaaquí [http://www.ikea.com/]. Miitems.pyel archivo se da a continuación: import scrapy class ...

1 la respuesta

Raspando muchas páginas usando Scrapy

Estoy tratando de raspar varias páginas web usando scrapy. El enlace de las páginas es como: http://www.example.com/id=some-numberEn la página siguiente, el número al final se reduce en1. Así que estoy tratando de construir una araña que ...

1 la respuesta

Límite de profundidad del conjunto fragmentado por dominios permitidos

Estoy rastreando 6 dominios permitidos diferentes y me gustaría limitar la profundidad de 1 dominio. ¿Cómo haría para limitar la profundidad de ese dominio 1 en scrapy? ¿O sería posible rastrear solo 1 profundidad de un dominio externo?

0 la respuesta

Importar archivo de elementos en otro script en python

Estoy tratando de hacer lo siguiente: Una araña raspa los enlaces presentes en la página web de un sitio web.Guarda los enlaces en un archivo de texto.Otra araña ahora abre el archivo de texto y lee los enlaces y raspa las páginas web ...

2 la respuesta

¿Scrab grab div con múltiples clases?

Estoy tratando de agarrar div con la clase: 'producto'. El problema es que algunos de los div con la clase 'product' también tienen la clase 'product-small'. Entonces cuando usoxpath('//div[@class='product']'), solo captura los divs con una clase ...