Resultados da pesquisa a pedido "web-scraping"

1 a resposta

Limite de profundidade do conjunto irregular por domínios permitidos

Estou rastreando 6 domínios permitidos diferentes e gostaria de limitar a profundidade de 1 domínio. Como limitaria a profundidade desse domínio 1 em scrapy? Ou seria possível rastrear apenas uma profundidade de domínios externos?

4 a resposta

Como usar solicitações Python para falsificar uma visita ao navegador?

Quero obter o conteúdo do site abaixo. Se eu usar um navegador como o Firefox ou o Chrome, poderia obter a página do site real desejada, mas se eu usar o pacote de solicitações do Python (ouwget comando) para obtê-lo, ele retorna uma página HTML ...

1 a resposta

Como recuperar informações sobre periódicos do ISI Web of Knowledge?

Estou trabalhando em algum trabalho de previsão de citações de artigos. O problema que tenho é que preciso de informações sobre periódicos do ISI Web of Knowledge. Eles estão coletando essas informações (fator de impacto do diário, fator próprio, ...

2 a resposta

Scrapy: Extrair links e texto

Eu sou novo no scrapy e estou tentando raspar a página do site da Ikea. A página básica com a lista de locais, conforme indicadoaqui [http://www.ikea.com/]. Minhasitems.pyarquivo é dado abaixo: import scrapy class IkeaItem(scrapy.Item): name = ...

1 a resposta

Raspar muitas páginas usando raspar

Estou tentando raspar várias páginas da Web usando raspar. O link das páginas é como: http://www.example.com/id=some-numberNa próxima página, o número no final é reduzido em1. Então, eu estou tentando construir uma aranha que navega para as ...

1 a resposta

Rastreador da Web para extrair dos elementos da lista

Estou tentando extrair de<li> marca as datas e as armazena em um arquivo do Excel. <li>January 13, 1991: At least 40 people <a href ="......."> </a> </li>Código: import urllib2 import os from datetime import datetime import ...

0 a resposta

Importar arquivo de itens em outro script em python

Estou tentando fazer o seguinte: Uma aranha raspa os links presentes na página de um site.Ele salva os links em um arquivo de texto.Outra aranha agora abre o arquivo de texto e lê os links, raspa as páginas da web individuais e salva os dados.Eu ...

3 a resposta

Falha geral do servidor SOCKS ao trocar de identidade usando o tronco

Eu tenho o Tor rodando em um servidor remoto (Ubuntu) na porta 9150 com a porta de controle no 9151. Confirmei que ambos estão sendo executados via netstat -ant. Aqui está o meu código que está provocando oSOCKS5Error: 0x01: General SOCKS server ...

2 a resposta

Scrapy grab div com várias classes?

Eu estou tentando pegar div's com a classe: 'product'. O problema é que algumas divs com a classe 'product' também possuem a classe 'product-small'. Então, quando eu usoxpath('//div[@class='product']'), ele captura apenas os divs com uma classe e ...

10 a resposta

Como "digitalizar" um site (ou página) em busca de informações e trazê-lo para o meu programa?

Bem, estou tentando descobrir como extrair informações de uma página da Web e trazê-las para o meu programa (em Java). Por exemplo, se eu souber a página exata da qual desejo informações, por uma questão de simplicidade, uma página de item da ...