La forma más fácil de ejecutar el rastreador para que no bloquee el script

Question

Feb 26, 2016, 10:02 AM

La forma más fácil de ejecutar el rastreador para que no bloquee el script

Los documentos oficiales dar muchas formas de correrscrapy rastreadores del código:

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(MySpider)
process.start() # the script will block here until the crawling is finished

Pero todos ellos bloquean el script hasta que finaliza el rastreo. ¿Cuál es la forma más fácil en Python para ejecutar el rastreador de manera asincrónica y sin bloqueo?