Não é possível obter o Scrapy para analisar e seguir os redirecionamentos 301, 302
Estou tentando escrever um rastreador de site muito simples para listar URLs, juntamente com códigos de referência e status para os códigos de status 200, 301, 302 e 404 http.
Acontece que o Scrapy funciona muito bem e meu script o usa corretamente para rastrear o site e pode listar URLs com códigos de status 200 e 404 sem problemas.
O problema é: Não consigo encontrar como ter scrapy seguir redirecionamentos e analisá-los / produzi-los. Posso conseguir um para trabalhar, mas não ambos.
O que eu tentei até agora:
configuraçãometa={'dont_redirect':True}
e configuraçãoREDIRECTS_ENABLED = False
adicionando 301, 302 à handle_httpstatus_list
alterar as configurações especificadas no documento de redirecionamento do middleware
lendo o código de middleware de redirecionamento para obter informações
vários combo de todos os itens acima
outras coisas aleatórias
Aqui está orepo público se você quiser dar uma olhada no código.