Как использовать CrawlSpider от scrapy, чтобы щелкнуть ссылку с помощью javascript onclick?

Question

Mar 16, 2010, 03:12 PM

python javascript onclick web-scraping scrapy

Как использовать CrawlSpider от scrapy, чтобы щелкнуть ссылку с помощью javascript onclick?

Я хочу, чтобы scrapy сканировал страницы, где переход к следующей ссылке выглядит следующим образом:

<a href="#" onclick="return gotoPage('2');"> Next </a>

Сможет ли scrapy интерпретировать код JavaScript?

СLiveHTTPHeaders Расширение Я обнаружил, что нажатие Next генерирует POST с действительно огромным куском "мусора", начинающимся так:

encoded_session_hidden_map=H4sIAAAAAAAAALWZXWwj1RXHJ9n

Я пытаюсь построить своего паука наCrawlSpider класс, но я не могу понять, как его кодировать, сBaseSpider Я использовалparse() метод для обработки первого URL, который является формой входа в систему, где я сделал POST с:

def logon(self, response):
    login_form_data={ 'email': '[email protected]', 'password': 'mypass22', 'action': 'sign-in' }
    return [FormRequest.from_response(response, formnumber=0, formdata=login_form_data, callback=self.submit_next)]

И тогда я определил submit_next (), чтобы сказать, что делать дальше. Я не могу понять, как мне сообщить CrawlSpider, какой метод использовать в первом URL?

Все запросы в моем сканировании, кроме первого, являются запросами POST. Они чередуют два типа запросов: вставляют некоторые данные и нажимают «Далее», чтобы перейти на следующую страницу.

Как использовать CrawlSpider от scrapy, чтобы щелкнуть ссылку с помощью javascript onclick?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как использовать CrawlSpider от scrapy, чтобы щелкнуть ссылку с помощью javascript onclick?

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы