Resultados da pesquisa a pedido "scrapy"
scrapy pode ser usado para raspar conteúdo dinâmico de sites que usam AJA
Estive aprendendo Python recentemente e estou mergulhando minha mão na criação de um raspador da Web. Não é nada chique; seu único objetivo é obter os dados de um site de apostas e colocá-los no Excel. A maioria dos problemas é solucionável e ...
Acesso ao cookie de sessão em aranhas arranhadas
Estou tentando acessar o cookie da sessão dentro de uma aranha. Primeiro, entrei em uma rede social usando uma aranha: def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': '...', ...
Preservar quebras de linha ao analisar com Scrapy em Python
Eu escrevi uma aranha Scrapy que extrai texto de uma página. A aranha analisa e produz corretamente em muitas páginas, mas é jogada fora por algumas. Estou tentando manter quebras de linha e formatação no documento. Páginas ...
Como tentar novamente o link 404 não encontrado no scrapy?
lguns sites dão erro 404 temporariamente. Mas eu colo no navegador que funciona. Como dizer ao scrapy para tentar novamente os links do código de status 404 por 5 veze
Scrapy start_urls
O script [https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/dmoz.py] (abaixo) deest [http://doc.scrapy.org/en/latest/intro/tutorial.html] tutorial contém doisstart_urls. from scrapy.spider import Spider from scrapy.selector import ...
Iterando sobre um dicionário em python e eliminando espaços em branco
Estou trabalhando com a estrutura de raspagem da Web Scrapy e sou meio noob quando se trata de python. Por isso, estou pensando em como iterar em todos os itens raspados que parecem estar em um dicionário e retirar o espaço em branco de cada um ...
Scrapy 's Scrapyd muito lento com aranhas de agendamento
Estou executando o Scrapyd e encontro um problema estranho ao iniciar quatro aranhas ao mesmo temp 2012-02-06 15:27:17+0100 [HTTPChannel,0,127.0.0.1] 127.0.0.1 - - [06/Feb/2012:14:27:16 +0000] "POST /schedule.json HTTP/1.1" 200 62 ...
Scrapy: Siga o link para obter dados adicionais sobre itens?
Não tenho um problema de código específico. Apenas não tenho certeza de como abordar o seguinte problema logisticamente com a estrutura Scrapy: A estrutura dos dados que quero raspar é normalmente uma linha da tabela para cada item. Simples o ...
Posso executar o scrapy (python) crawl fora do diretório do projet
Os documentos dizem que eu só poderia executar o comando crawl dentro do diretório do projeto: scrapy crawl tutor -o items.json -t json mas eu realmente preciso executá-lo no meu código python (o arquivo python não está dentro do diretório atual ...
scrapy permite todos os domínios
Eu viest [https://stackoverflow.com/questions/6320167/python-scrapy-allowed-domains-adding-new-domains-from-database] post para facilitar o rastreamento de qualquer site sem restrição de domínios permitido xiste alguma maneira melhor de ...