Como usar o scrapy para rastrear dados de várias páginas implementadas por javascript

Question

Mar 18, 2016, 12:29 PM

Como usar o scrapy para rastrear dados de várias páginas implementadas por javascript

Quero usar o scrapy para rastrear dados de páginas da Web, mas a diferença entre páginas diferentes não pode ser vista no URL. Por exemplo:

http://epgd.biosino.org/EPGD/search/textsearch.jsp?textquery=man&submit=Feeling+Lucky

O URL acima é a primeira página da qual desejo rastrear dados e é fácil obtê-los.

Aqui está o meu código:

__author__ = 'Rabbit'
from scrapy.spiders import Spider
from scrapy.selector import Selector

from scrapy_Data.items import EPGD


class EPGD_spider(Spider):
    name = "EPGD"
    allowed_domains = ["epgd.biosino.org"]
    stmp = []
    term = "man"
    url_base = "http://epgd.biosino.org/EPGD/search/textsearch.jsp?textquery=man&submit=Feeling+Lucky"

    start_urls = stmp

    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//tr[@class="odd"]|//tr[@class="even"]')

        for site in sites:
            item = EPGD()
            item['genID'] = map(unicode.strip, site.xpath('td[1]/a/text()').extract())
            item['taxID'] = map(unicode.strip, site.xpath('td[2]/a/text()').extract())
            item['familyID'] = map(unicode.strip, site.xpath('td[3]/a/text()').extract())
            item['chromosome'] = map(unicode.strip, site.xpath('td[4]/text()').extract())
            item['symbol'] = map(unicode.strip, site.xpath('td[5]/text()').extract())
            item['description'] = map(unicode.strip, site.xpath('td[6]/text()').extract())
            yield item

Mas o problema surge se eu quiser obter dados da página 2. Clico na página seguinte e o URL da segunda página fica assim:

http://epgd.biosino.org/EPGD/search/textsearch.jsp?currentIndex=20

Como você vê, ele não possui uma palavra-chave em seu URL, então não sei como obter dados de outras páginas. Talvez eu deva usar cookies, mas não sei como lidar com essa situação, para que alguém possa me ajudar.

Muito obrigado!