Como usar o CrawlSpider do scrapy para clicar em um link com o javascript onclick?
Quero raspar rastreio de páginas nas quais o próximo link fica assim:
<a href="#" onclick="return gotoPage('2');"> Next </a>
O scrapy será capaz de interpretar o código javascript disso?
Comlivehttpheaders extensão, descobri que clicar em Next gera um POST com um enorme pedaço de "lixo" começando assim:
encoded_session_hidden_map=H4sIAAAAAAAAALWZXWwj1RXHJ9n
Eu estou tentando construir minha aranha noCrawlSpider
classe, mas eu realmente não consigo descobrir como codificá-lo, comBaseSpider
Eu usei oparse()
método para processar o primeiro URL, que por acaso é um formulário de login, no qual fiz um POST com:
def logon(self, response):
login_form_data={ 'email': '[email protected]', 'password': 'mypass22', 'action': 'sign-in' }
return [FormRequest.from_response(response, formnumber=0, formdata=login_form_data, callback=self.submit_next)]
E então eu defini submit_next () para dizer o que fazer em seguida. Não consigo descobrir como digo ao CrawlSpider qual método usar no primeiro URL?
Todas as solicitações no meu rastreamento, exceto a primeira, são solicitações POST. Eles alternam dois tipos de solicitações: colando alguns dados e clicando em "Avançar" para ir para a próxima página.