Construindo uma expressão regular para o url na lista start_urls no python do scrapy framework
Eu sou muito novo para scrapy e também eu não usei expressões regulares antes
O seguinte é meuspider.py
código
class ExampleSpider(BaseSpider):
name = "test_code
allowed_domains = ["www.example.com"]
start_urls = [
"http://www.example.com/bookstore/new/1?filter=bookstore",
"http://www.example.com/bookstore/new/2?filter=bookstore",
"http://www.example.com/bookstore/new/3?filter=bookstore",
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
Agora, se olharmos parastart_urls
todos os três urls são iguais, exceto pelo fato de diferirem no valor inteiro2?, 3?
e assim por diante quero dizer ilimitado de acordo com urls presentes no site, agora que podemos usar crawlspider e podemos construir expressões regulares para o URL como abaixo,
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
import re
class ExampleSpider(CrawlSpider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = [
"http://www.example.com/bookstore/new/1?filter=bookstore",
"http://www.example.com/bookstore/new/2?filter=bookstore",
"http://www.example.com/bookstore/new/3?filter=bookstore",
]
rules = (
Rule(SgmlLinkExtractor(allow=(........),))),
)
def parse(self, response):
hxs = HtmlXPathSelector(response)
u pode por favor me guiar, que como eu posso construir uma regra de rastreamento de aranha para o acimastart_url
Lista.