Resultados da pesquisa a pedido "scrapy"

8 a resposta

scrapy pode ser usado para raspar conteúdo dinâmico de sites que usam AJA

Estive aprendendo Python recentemente e estou mergulhando minha mão na criação de um raspador da Web. Não é nada chique; seu único objetivo é obter os dados de um site de apostas e colocá-los no Excel. A maioria dos problemas é solucionável e ...

2 a resposta

Acesso ao cookie de sessão em aranhas arranhadas

Estou tentando acessar o cookie da sessão dentro de uma aranha. Primeiro, entrei em uma rede social usando uma aranha: def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': '...', ...

2 a resposta

Preservar quebras de linha ao analisar com Scrapy em Python

Eu escrevi uma aranha Scrapy que extrai texto de uma página. A aranha analisa e produz corretamente em muitas páginas, mas é jogada fora por algumas. Estou tentando manter quebras de linha e formatação no documento. Páginas ...

1 a resposta

Como tentar novamente o link 404 não encontrado no scrapy?

lguns sites dão erro 404 temporariamente. Mas eu colo no navegador que funciona. Como dizer ao scrapy para tentar novamente os links do código de status 404 por 5 veze

12 a resposta

Scrapy start_urls

O script [https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/dmoz.py] (abaixo) deest [http://doc.scrapy.org/en/latest/intro/tutorial.html] tutorial contém doisstart_urls. from scrapy.spider import Spider from scrapy.selector import ...

14 a resposta

Iterando sobre um dicionário em python e eliminando espaços em branco

Estou trabalhando com a estrutura de raspagem da Web Scrapy e sou meio noob quando se trata de python. Por isso, estou pensando em como iterar em todos os itens raspados que parecem estar em um dicionário e retirar o espaço em branco de cada um ...

4 a resposta

Scrapy 's Scrapyd muito lento com aranhas de agendamento

Estou executando o Scrapyd e encontro um problema estranho ao iniciar quatro aranhas ao mesmo temp 2012-02-06 15:27:17+0100 [HTTPChannel,0,127.0.0.1] 127.0.0.1 - - [06/Feb/2012:14:27:16 +0000] "POST /schedule.json HTTP/1.1" 200 62 ...

6 a resposta

Scrapy: Siga o link para obter dados adicionais sobre itens?

Não tenho um problema de código específico. Apenas não tenho certeza de como abordar o seguinte problema logisticamente com a estrutura Scrapy: A estrutura dos dados que quero raspar é normalmente uma linha da tabela para cada item. Simples o ...

2 a resposta

Posso executar o scrapy (python) crawl fora do diretório do projet

Os documentos dizem que eu só poderia executar o comando crawl dentro do diretório do projeto: scrapy crawl tutor -o items.json -t json mas eu realmente preciso executá-lo no meu código python (o arquivo python não está dentro do diretório atual ...

4 a resposta

scrapy permite todos os domínios

Eu viest [https://stackoverflow.com/questions/6320167/python-scrapy-allowed-domains-adding-new-domains-from-database] post para facilitar o rastreamento de qualquer site sem restrição de domínios permitido xiste alguma maneira melhor de ...