Resultados da pesquisa a pedido "web-scraping"
Limite de profundidade do conjunto irregular por domínios permitidos
Estou rastreando 6 domínios permitidos diferentes e gostaria de limitar a profundidade de 1 domínio. Como limitaria a profundidade desse domínio 1 em scrapy? Ou seria possível rastrear apenas uma profundidade de domínios externos?
Como usar solicitações Python para falsificar uma visita ao navegador?
Quero obter o conteúdo do site abaixo. Se eu usar um navegador como o Firefox ou o Chrome, poderia obter a página do site real desejada, mas se eu usar o pacote de solicitações do Python (ouwget comando) para obtê-lo, ele retorna uma página HTML ...
Como recuperar informações sobre periódicos do ISI Web of Knowledge?
Estou trabalhando em algum trabalho de previsão de citações de artigos. O problema que tenho é que preciso de informações sobre periódicos do ISI Web of Knowledge. Eles estão coletando essas informações (fator de impacto do diário, fator próprio, ...
Scrapy: Extrair links e texto
Eu sou novo no scrapy e estou tentando raspar a página do site da Ikea. A página básica com a lista de locais, conforme indicadoaqui [http://www.ikea.com/]. Minhasitems.pyarquivo é dado abaixo: import scrapy class IkeaItem(scrapy.Item): name = ...
Raspar muitas páginas usando raspar
Estou tentando raspar várias páginas da Web usando raspar. O link das páginas é como: http://www.example.com/id=some-numberNa próxima página, o número no final é reduzido em1. Então, eu estou tentando construir uma aranha que navega para as ...
Rastreador da Web para extrair dos elementos da lista
Estou tentando extrair de<li> marca as datas e as armazena em um arquivo do Excel. <li>January 13, 1991: At least 40 people <a href ="......."> </a> </li>Código: import urllib2 import os from datetime import datetime import ...
Importar arquivo de itens em outro script em python
Estou tentando fazer o seguinte: Uma aranha raspa os links presentes na página de um site.Ele salva os links em um arquivo de texto.Outra aranha agora abre o arquivo de texto e lê os links, raspa as páginas da web individuais e salva os dados.Eu ...
Falha geral do servidor SOCKS ao trocar de identidade usando o tronco
Eu tenho o Tor rodando em um servidor remoto (Ubuntu) na porta 9150 com a porta de controle no 9151. Confirmei que ambos estão sendo executados via netstat -ant. Aqui está o meu código que está provocando oSOCKS5Error: 0x01: General SOCKS server ...
Scrapy grab div com várias classes?
Eu estou tentando pegar div's com a classe: 'product'. O problema é que algumas divs com a classe 'product' também possuem a classe 'product-small'. Então, quando eu usoxpath('//div[@class='product']'), ele captura apenas os divs com uma classe e ...
Como "digitalizar" um site (ou página) em busca de informações e trazê-lo para o meu programa?
Bem, estou tentando descobrir como extrair informações de uma página da Web e trazê-las para o meu programa (em Java). Por exemplo, se eu souber a página exata da qual desejo informações, por uma questão de simplicidade, uma página de item da ...