Scrapy не сканирует последующие страницы по порядку

Question

Apr 14, 2014, 11:50 PM

Scrapy не сканирует последующие страницы по порядку

Я пишу сканер, чтобы получить названия элементов с веб-сайта. Веб-сайт имеет 25 элементов на страницу и несколько страниц (200 для некоторых типов элементов).

Вот код:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from lonelyplanet.items import LonelyplanetItem

class LonelyplanetSpider(CrawlSpider):
    name = "lonelyplanetItemName_spider"
    allowed_domains = ["lonelyplanet.com"]
    def start_requests(self):
        for i in xrange(8):
            yield self.make_requests_from_url("http://www.lonelyplanet.com/europe/sights?page=%d" % i)

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    sites = hxs.select('//h2')
    items = []
    for site in sites:
        item = LonelyplanetItem()
        item['name'] = site.select('a[@class="targetUrl"]/text()').extract()
        items.append(item)
    return items

Когда я запускаю сканер и сохраняю данные в формате csv, данные сохраняются не по порядку, т.е. данные страницы 2 сохраняются до того, как страница 1 или страница 3 сохраняются перед страницей 2 и аналогичным образом. Также иногда до того, как все данные конкретной страницы сохраняются, поступают данные другой страницы, а остальные данные прежней страницы сохраняются снова.

Scrapy не сканирует последующие страницы по порядку

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Scrapy не сканирует последующие страницы по порядку

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы