Resultados da pesquisa a pedido "scrapy"
Como tentar novamente o link 404 não encontrado no scrapy?
lguns sites dão erro 404 temporariamente. Mas eu colo no navegador que funciona. Como dizer ao scrapy para tentar novamente os links do código de status 404 por 5 veze
Preservar quebras de linha ao analisar com Scrapy em Python
Eu escrevi uma aranha Scrapy que extrai texto de uma página. A aranha analisa e produz corretamente em muitas páginas, mas é jogada fora por algumas. Estou tentando manter quebras de linha e formatação no documento. Páginas ...
Acesso ao cookie de sessão em aranhas arranhadas
Estou tentando acessar o cookie da sessão dentro de uma aranha. Primeiro, entrei em uma rede social usando uma aranha: def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': '...', ...
scrapy pode ser usado para raspar conteúdo dinâmico de sites que usam AJA
Estive aprendendo Python recentemente e estou mergulhando minha mão na criação de um raspador da Web. Não é nada chique; seu único objetivo é obter os dados de um site de apostas e colocá-los no Excel. A maioria dos problemas é solucionável e ...
como mesclar os resultados da página de destino para a página atual em scrapy?
Precisa de exemplo detalhado sobre como obter um link de uma página, siga este link, obtenha mais informações da página vinculada e volte a juntar alguns dados da primeira página ... obrigad
Scrapy ler lista de URLs do arquivo para raspa
Acabei de instalar o scrapy e segui seu dmoz simplestutoria [http://doc.scrapy.org/en/latest/intro/tutorial.html] que funciona. Eu apenas procurei o manuseio básico de arquivos para python e tentei fazer o rastreador ler uma lista de URLs de um ...
sando o tor com estrutura fragmenta
Estou tentando rastrear o site, que é sofisticado o suficiente para interromper os bots, quero dizer, está permitindo apenas alguns pedidos, depois que o Scrapy trav Pergunta 1: existe uma maneira, se o Scrapy travar, posso reiniciar ...
Como combinar scrapy e htmlunit para rastrear URLs com javascript
Estou trabalhando no Scrapy para rastrear páginas, no entanto, não consigo lidar com as páginas com javascript. As pessoas sugerem que eu use a unidade html, então eu a instalei, mas não sei como usá-la. Alguém pode dar um exemplo (scrapy + ...
xecutando tarefas Scrapy em Pyth
Meu script Scrapy parece funcionar muito bem quando eu o executo em cenários 'únicos' na linha de comando, mas se eu tentar executar o código duas vezes na mesma sessão python, recebo este erro: "ReactorNotRestartable" Por quê O código ...
Evitando o redirecionamento
Estou tentando analisar um site (escrito em ASP) e o rastreador é redirecionado para o site principal. Mas o que eu gostaria de fazer é analisar o URL fornecido, não o redirecionado. Existe uma maneira de fazer isso? Tentei adicionar "REDIRECT = ...