Verificando um URL por um erro 404 escasso
Estou passando por um conjunto de páginas e não tenho certeza de quantas são, mas a página atual é representada por um número simples presente no URL (por exemplo, "http://www.website.com/page/1")
Eu gostaria de usar um loop for in scrapy para incrementar o palpite atual na página e parar quando chegar a um 404. Eu sei que a resposta que é retornada da requisição contém esta informação, mas não tenho certeza de como obter automaticamente uma resposta de um pedido.
Algumas ideias em como fazer isso?
Atualmente meu código é algo nos moldes de:
def start_requests(self):
baseUrl = "http://website.com/page/"
currentPage = 0
stillExists = True
while(stillExists):
currentUrl = baseUrl + str(currentPage)
test = Request(currentUrl)
if test.response.status != 404: #This is what I'm not sure of
yield test
currentPage += 1
else:
stillExists = False