Passar argumento para scrapy spider dentro de um script python

Question

Feb 24, 2015, 09:25 PM

python web-scraping scrapy python-2.7 scrapy-spider

Passar argumento para scrapy spider dentro de um script python

Posso executar o rastreamento em um script python com a seguinte receita do wiki:

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
from testspiders.spiders.followall import FollowAllSpider
from scrapy.utils.project import get_project_settings

spider = FollowAllSpider(domain='scrapinghub.com')
settings = get_project_settings()
crawler = Crawler(settings)
crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run()

Como você pode ver, eu posso passar odomain paraFollowAllSpider mas minha pergunta é: como posso passar ostart_urls (na verdade, umdate que será adicionado a um URL fixo) à minha classe spider usando o código acima?

esta é a minha aula de aranha:

class MySpider(CrawlSpider):
    name = 'tw'
    def __init__(self,date):
        y,m,d=date.split('-') #this is a test , it could split with regex! 
        try:
            y,m,d=int(y),int(m),int(d)

        except ValueError:
            raise 'Enter a valid date'

        self.allowed_domains = ['mydomin.com']
        self.start_urls = ['my_start_urls{}-{}-{}'.format(y,m,d)]

    def parse(self, response):
        questions = Selector(response).xpath('//div[@class="result-link"]/span/a/@href') 
        for question in questions:
            item = PoptopItem()
            item['url'] = question.extract()
            yield item['url']

e este é o meu script:

from pdfcreator import convertor
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
#from testspiders.spiders.followall import FollowAllSpider
from scrapy.utils.project import get_project_settings
from poptop.spiders.stackoverflow_spider import MySpider
from poptop.items import PoptopItem

settings = get_project_settings()
crawler = Crawler(settings) 
crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.configure()

date=raw_input('Enter the date with this format (d-m-Y) : ')
print date
spider=MySpider(date=date)
crawler.crawl(spider)
crawler.start()
log.start()
item=PoptopItem()

for url in item['url']:
    convertor(url)

reactor.run() # the script will block here until the spider_closed signal was sent

Se eu apenas imprimir oitem vou receber o seguinte erro:

2015-02-25 17:13:47+0330 [tw] ERROR: Spider must return Request, BaseItem or None, got 'unicode' in <GET test-link2015-1-17>

Itens:

import scrapy


class PoptopItem(scrapy.Item):
    titles= scrapy.Field()
    content= scrapy.Field()
    url=scrapy.Field()

questionAnswers(1)

Perguntas populares

0 a resposta

Google drive e HTTP autorizado GET para baixar um arquivo

0 a resposta

Formatting código bem

0 a resposta

istream e cin.get ()

0 a resposta

GAE / J Este aplicativo não existe (app_id = u'application-id ')

0 a resposta

Verifique se dois arquivos são os mesmos em Cocoa

Você é muito ativo! É ótimo!

Passar argumento para scrapy spider dentro de um script python

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares