Scrapy CrawlSpider не сканирует первую целевую страницу
Я новичок в Scrapy, я работаю над скребком и использую CrawlSpider. Хотя фреймворк Scrapy прекрасно работает и работает по соответствующим ссылкам, я могуПохоже, что CrawlSpider очищает самую первую ссылку (домашняя страница / целевая страница). Вместо этого он идет непосредственно, чтобы очистить ссылки, определенные правилом, но нецарапать целевую страницу, на которой находятся ссылки. Я неНе знаю, как это исправить, поскольку не рекомендуется перезаписывать метод синтаксического анализа для CrawlSpider. Модификация follow = True / False также не делаетне дает никаких хороших результатов. Вот фрагмент кода:
class DownloadSpider(CrawlSpider):
name = 'downloader'
allowed_domains = ['bnt-chemicals.de']
start_urls = [
"http://www.bnt-chemicals.de"
]
rules = (
Rule(SgmlLinkExtractor(aloow='prod'), callback='parse_item', follow=True),
)
fname = 1
def parse_item(self, response):
open(str(self.fname)+ '.txt', 'a').write(response.url)
open(str(self.fname)+ '.txt', 'a').write(','+ str(response.meta['depth']))
open(str(self.fname)+ '.txt', 'a').write('\n')
open(str(self.fname)+ '.txt', 'a').write(response.body)
open(str(self.fname)+ '.txt', 'a').write('\n')
self.fname = self.fname + 1