Einfachste Möglichkeit, Scrapy Crawler auszuführen, damit das Skript nicht blockiert wird
Die offiziellen Dokumente geben viele Möglichkeiten zum Laufenscrapy
Crawler aus dem Code:
import scrapy
from scrapy.crawler import CrawlerProcess
class MySpider(scrapy.Spider):
# Your spider definition
...
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})
process.crawl(MySpider)
process.start() # the script will block here until the crawling is finished
Aber alle blockieren das Skript, bis das Crawlen abgeschlossen ist. Wie kann der Crawler in Python am einfachsten blockierungsfrei und asynchron ausgeführt werden?