Resultados da pesquisa a pedido "scrapy"

1 a resposta

Scrapy falhando no terminal

Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5, in <module> from pkg_resources import load_entry_point File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/pkg_resources.py", line 2793, in ...

1 a resposta

Raspar com selênio rastejando, mas não raspar

Eu li todos os tópicos sobre o uso do scrapy para páginas AJAX e instalei o selenium webdrive para simplificar a tarefa, minha aranha pode rastrear parcialmente, mas não consegue obter dados nos meus itens. Meus objetivos são: Rastrear deesta ...

4 a resposta

httplib.BadStatusLine: ''

Como sempre, frequentemente tenho problemas e procurei minuciosamente uma resposta para a atual, mas me perco. Aqui estão alguns dos lugares que procurei: -Como corrigir a exceção ...

2 a resposta

Scrapy: Extrair links e texto

Eu sou novo no scrapy e estou tentando raspar a página do site da Ikea. A página básica com a lista de locais, conforme indicadoaqui [http://www.ikea.com/]. Minhasitems.pyarquivo é dado abaixo: import scrapy class IkeaItem(scrapy.Item): name = ...

1 a resposta

Raspar muitas páginas usando raspar

Estou tentando raspar várias páginas da Web usando raspar. O link das páginas é como: http://www.example.com/id=some-numberNa próxima página, o número no final é reduzido em1. Então, eu estou tentando construir uma aranha que navega para as ...

3 a resposta

Extrair conteúdo javascript de várias linhas da tag <script> usando Scrapy

Estou tentando extrair dados dessa tag de script usando o Scrapy: <script> var hardwareTemplateFunctions; var storefrontContextUrl = ''; jq(function() { var data = new Object(); data.hardwareProductCode = '9054832'; data.offeringCode = ...

1 a resposta

Limite de profundidade do conjunto irregular por domínios permitidos

Estou rastreando 6 domínios permitidos diferentes e gostaria de limitar a profundidade de 1 domínio. Como limitaria a profundidade desse domínio 1 em scrapy? Ou seria possível rastrear apenas uma profundidade de domínios externos?

2 a resposta

Geopy: erro de tempo limite da captura

Estou usando o geopy para geocodificar alguns endereços e quero capturar os erros de tempo limite e imprimi-los para que eu possa fazer algum controle de qualidade na entrada. Estou colocando a solicitação de geocódigo em uma tentativa / captura, ...

0 a resposta

Importar arquivo de itens em outro script em python

Estou tentando fazer o seguinte: Uma aranha raspa os links presentes na página de um site.Ele salva os links em um arquivo de texto.Outra aranha agora abre o arquivo de texto e lê os links, raspa as páginas da web individuais e salva os dados.Eu ...

4 a resposta

Como baixar imagens scrapy em uma pasta dinâmica, com base em

Estou tentando substituir o caminho padrãofull/hash.jpg para<dynamic>/hash.jpg, Eu tenteiComo baixar imagens scrapy em uma pasta dyanmic [https://stackoverflow.com/questions/27386509/how-to-download-scrapy-images-in-a-dyanmic-folder] usando o ...