Scrapy CrawlSpider не сканирует первую целевую страницу

Question

Apr 05, 2013, 02:07 PM

Scrapy CrawlSpider не сканирует первую целевую страницу

Я новичок в Scrapy, я работаю над скребком и использую CrawlSpider. Хотя фреймворк Scrapy прекрасно работает и работает по соответствующим ссылкам, я могуПохоже, что CrawlSpider очищает самую первую ссылку (домашняя страница / целевая страница). Вместо этого он идет непосредственно, чтобы очистить ссылки, определенные правилом, но нецарапать целевую страницу, на которой находятся ссылки. Я неНе знаю, как это исправить, поскольку не рекомендуется перезаписывать метод синтаксического анализа для CrawlSpider. Модификация follow = True / False также не делаетне дает никаких хороших результатов. Вот фрагмент кода:

class DownloadSpider(CrawlSpider):
    name = 'downloader'
    allowed_domains = ['bnt-chemicals.de']
    start_urls = [
        "http://www.bnt-chemicals.de"        
        ]
    rules = (   
        Rule(SgmlLinkExtractor(aloow='prod'), callback='parse_item', follow=True),
        )
    fname = 1

    def parse_item(self, response):
        open(str(self.fname)+ '.txt', 'a').write(response.url)
        open(str(self.fname)+ '.txt', 'a').write(','+ str(response.meta['depth']))
        open(str(self.fname)+ '.txt', 'a').write('\n')
        open(str(self.fname)+ '.txt', 'a').write(response.body)
        open(str(self.fname)+ '.txt', 'a').write('\n')
        self.fname = self.fname + 1

Scrapy CrawlSpider не сканирует первую целевую страницу

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Scrapy CrawlSpider не сканирует первую целевую страницу

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы