Resultados da pesquisa a pedido "scrapy"

1 a resposta

Como tentar novamente o link 404 não encontrado no scrapy?

lguns sites dão erro 404 temporariamente. Mas eu colo no navegador que funciona. Como dizer ao scrapy para tentar novamente os links do código de status 404 por 5 veze

2 a resposta

Preservar quebras de linha ao analisar com Scrapy em Python

Eu escrevi uma aranha Scrapy que extrai texto de uma página. A aranha analisa e produz corretamente em muitas páginas, mas é jogada fora por algumas. Estou tentando manter quebras de linha e formatação no documento. Páginas ...

2 a resposta

Acesso ao cookie de sessão em aranhas arranhadas

Estou tentando acessar o cookie da sessão dentro de uma aranha. Primeiro, entrei em uma rede social usando uma aranha: def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': '...', ...

8 a resposta

scrapy pode ser usado para raspar conteúdo dinâmico de sites que usam AJA

Estive aprendendo Python recentemente e estou mergulhando minha mão na criação de um raspador da Web. Não é nada chique; seu único objetivo é obter os dados de um site de apostas e colocá-los no Excel. A maioria dos problemas é solucionável e ...

4 a resposta

como mesclar os resultados da página de destino para a página atual em scrapy?

Precisa de exemplo detalhado sobre como obter um link de uma página, siga este link, obtenha mais informações da página vinculada e volte a juntar alguns dados da primeira página ... obrigad

3 a resposta

Scrapy ler lista de URLs do arquivo para raspa

Acabei de instalar o scrapy e segui seu dmoz simplestutoria [http://doc.scrapy.org/en/latest/intro/tutorial.html] que funciona. Eu apenas procurei o manuseio básico de arquivos para python e tentei fazer o rastreador ler uma lista de URLs de um ...

1 a resposta

sando o tor com estrutura fragmenta

Estou tentando rastrear o site, que é sofisticado o suficiente para interromper os bots, quero dizer, está permitindo apenas alguns pedidos, depois que o Scrapy trav Pergunta 1: existe uma maneira, se o Scrapy travar, posso reiniciar ...

2 a resposta

Como combinar scrapy e htmlunit para rastrear URLs com javascript

Estou trabalhando no Scrapy para rastrear páginas, no entanto, não consigo lidar com as páginas com javascript. As pessoas sugerem que eu use a unidade html, então eu a instalei, mas não sei como usá-la. Alguém pode dar um exemplo (scrapy + ...

4 a resposta

xecutando tarefas Scrapy em Pyth

Meu script Scrapy parece funcionar muito bem quando eu o executo em cenários 'únicos' na linha de comando, mas se eu tentar executar o código duas vezes na mesma sessão python, recebo este erro: "ReactorNotRestartable" Por quê O código ...

2 a resposta

Evitando o redirecionamento

Estou tentando analisar um site (escrito em ASP) e o rastreador é redirecionado para o site principal. Mas o que eu gostaria de fazer é analisar o URL fornecido, não o redirecionado. Existe uma maneira de fazer isso? Tentei adicionar "REDIRECT = ...