Como usar o CrawlSpider do scrapy para clicar em um link com o javascript onclick?

Question

Mar 16, 2010, 03:12 PM

web-scraping python scrapy onclick javascript

Como usar o CrawlSpider do scrapy para clicar em um link com o javascript onclick?

Quero raspar rastreio de páginas nas quais o próximo link fica assim:

<a href="#" onclick="return gotoPage('2');"> Next </a>

O scrapy será capaz de interpretar o código javascript disso?

Comlivehttpheaders extensão, descobri que clicar em Next gera um POST com um enorme pedaço de "lixo" começando assim:

encoded_session_hidden_map=H4sIAAAAAAAAALWZXWwj1RXHJ9n

Eu estou tentando construir minha aranha noCrawlSpider classe, mas eu realmente não consigo descobrir como codificá-lo, comBaseSpider Eu usei oparse() método para processar o primeiro URL, que por acaso é um formulário de login, no qual fiz um POST com:

def logon(self, response):
    login_form_data={ 'email': '[email protected]', 'password': 'mypass22', 'action': 'sign-in' }
    return [FormRequest.from_response(response, formnumber=0, formdata=login_form_data, callback=self.submit_next)]

E então eu defini submit_next () para dizer o que fazer em seguida. Não consigo descobrir como digo ao CrawlSpider qual método usar no primeiro URL?

Todas as solicitações no meu rastreamento, exceto a primeira, são solicitações POST. Eles alternam dois tipos de solicitações: colando alguns dados e clicando em "Avançar" para ir para a próxima página.