Scrapy SgmlLinkExtractor вопрос
Я пытаюсь заставить работать SgmlLinkExtractor.
Это подпись:
SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)
Я просто используюallow=()
Итак, я вхожу
rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),)
Итак, начальный URL'http://www.whitecase.com/jacevedo/'
и я вхожуallow=('/aadler',)
и ожидать, что'/aadler/'
будет сканироваться также. Но вместо этого паук сканирует исходный URL и затем закрывается:
[wcase] INFO: Domain opened
[wcase] DEBUG: Crawled (referer: )
[wcase] INFO: Passed NuItem(school=[u'JD, ', u'Columbia Law School, Harlan Fiske Stone Scholar, Parker School Recognition of Achievement in International and Foreign Law, ', u'2005'])
[wcase] INFO: Closing domain (finished)
Что я здесь не так делаю?
Есть ли здесь кто-нибудь, кто успешно использовал Scrapy и может помочь мне покончить с этим пауком?
Спасибо вам за помощь.
Я включаю код для паука ниже:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from Nu.items import NuItem
from urls import u
class NuSpider(CrawlSpider):
domain_name = "wcase"
start_urls = ['xxxxxx/jacevedo/']
rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),)
def parse(self, response):
hxs = HtmlXPathSelector(response)
item = NuItem()
item['school'] = hxs.select('//td[@class="mainColumnTDa"]').re('(?