Scrapy не сканирует последующие страницы по порядку
Я пишу сканер, чтобы получить названия элементов с веб-сайта. Веб-сайт имеет 25 элементов на страницу и несколько страниц (200 для некоторых типов элементов).
Вот код:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from lonelyplanet.items import LonelyplanetItem
class LonelyplanetSpider(CrawlSpider):
name = "lonelyplanetItemName_spider"
allowed_domains = ["lonelyplanet.com"]
def start_requests(self):
for i in xrange(8):
yield self.make_requests_from_url("http://www.lonelyplanet.com/europe/sights?page=%d" % i)
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//h2')
items = []
for site in sites:
item = LonelyplanetItem()
item['name'] = site.select('a[@class="targetUrl"]/text()').extract()
items.append(item)
return items
Когда я запускаю сканер и сохраняю данные в формате csv, данные сохраняются не по порядку, т.е. данные страницы 2 сохраняются до того, как страница 1 или страница 3 сохраняются перед страницей 2 и аналогичным образом. Также иногда до того, как все данные конкретной страницы сохраняются, поступают данные другой страницы, а остальные данные прежней страницы сохраняются снова.