Não é possível obter o Scrapy para analisar e seguir os redirecionamentos 301, 302

Question

Sep 29, 2016, 07:18 PM

Não é possível obter o Scrapy para analisar e seguir os redirecionamentos 301, 302

Estou tentando escrever um rastreador de site muito simples para listar URLs, juntamente com códigos de referência e status para os códigos de status 200, 301, 302 e 404 http.

Acontece que o Scrapy funciona muito bem e meu script o usa corretamente para rastrear o site e pode listar URLs com códigos de status 200 e 404 sem problemas.

O problema é: Não consigo encontrar como ter scrapy seguir redirecionamentos e analisá-los / produzi-los. Posso conseguir um para trabalhar, mas não ambos.

O que eu tentei até agora:

configuraçãometa={'dont_redirect':True} e configuraçãoREDIRECTS_ENABLED = False

adicionando 301, 302 à handle_httpstatus_list

alterar as configurações especificadas no documento de redirecionamento do middleware

lendo o código de middleware de redirecionamento para obter informações

vários combo de todos os itens acima

outras coisas aleatórias

Aqui está orepo público se você quiser dar uma olhada no código.