Не удалось отсканировать элемент определенного веб-сайта с помощью паука-скрапа

Question

Jun 26, 2014, 07:57 AM

Не удалось отсканировать элемент определенного веб-сайта с помощью паука-скрапа

Я хочу получить адреса веб-сайтов для некоторых рабочих мест, поэтому я пишу паук-скрап, я хочу получить всю ценность сxpath://article/dl/dd/h2/a[@class="job-title"]/@href, но когда я выполняю паука с командой:

scrapy spider auseek -a addsthreshold=3

переменная«URL» используется для сохранения значений пусто, может кто-нибудь помочь мне понять это,

вот мой код:

from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.selector import Selector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.conf import settings
from scrapy.mail import MailSender
from scrapy.xlib.pydispatch import dispatcher
from scrapy.exceptions import CloseSpider
from scrapy import log
from scrapy import signals

from myProj.items import ADItem
import time

class AuSeekSpider(CrawlSpider):
    name = "auseek"
    result_address = []
    addressCount = int(0)
    addressThresh = int(0)
    allowed_domains = ["seek.com.au"]
    start_urls = [
        "http://www.seek.com.au/jobs/in-australia/"
    ]

    def __init__(self,**kwargs):
        super(AuSeekSpider, self).__init__()
        self.addressThresh = int(kwargs.get('addsthreshold'))
        print 'init finished...'

    def parse_start_url(self,response):
        print 'This is start url function'
        log.msg("Pipeline.spider_opened called", level=log.INFO)
        hxs = Selector(response)
        urls = hxs.xpath('//article/dl/dd/h2/a[@class="job-title"]/@href').extract()
        print 'urls is:',urls
        print 'test element:',urls[0].encode("ascii")
        for url in urls:
            postfix = url.getAttribute('href')
            print 'postfix:',postfix
            url = urlparse.urljoin(response.url,postfix)
            yield Request(url, callback = self.parse_ad)

        return 


    def parse_ad(self, response):
        print 'this is parse_ad function'
        hxs = Selector(response) 

        item = ADItem()
        log.msg("Pipeline.parse_ad called", level=log.INFO)
        item['name'] = str(self.name)
        item['picNum'] = str(6)
        item['link'] = response.url
        item['date'] = time.strftime('%Y%m%d',time.localtime(time.time()))

        self.addressCount = self.addressCount + 1
        if self.addressCount > self.addressThresh:
            raise CloseSpider('Get enough website address')
        return item

Проблемы это:

urls = hxs.xpath('//article/dl/dd/h2/a[@class="job-title"]/@href').extract()

Когда я пытался его распечатать, URL-адрес пуст, я просто не могу понять, почему он не работает и как я могу это исправить, спасибо за вашу помощь.

Не удалось отсканировать элемент определенного веб-сайта с помощью паука-скрапа

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Не удалось отсканировать элемент определенного веб-сайта с помощью паука-скрапа

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы