Construyendo una expresión regular para url en la lista start_urls en scrapy framework python
Soy muy nuevo en scrapy y tampoco usé expresiones regulares antes
El siguiente es mispider.py
código
class ExampleSpider(BaseSpider):
name = "test_code
allowed_domains = ["www.example.com"]
start_urls = [
"http://www.example.com/bookstore/new/1?filter=bookstore",
"http://www.example.com/bookstore/new/2?filter=bookstore",
"http://www.example.com/bookstore/new/3?filter=bookstore",
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
Ahora si nos fijamos enstart_urls
todas las tres direcciones URL son iguales excepto que difieren en el valor entero2?, 3?
y así, me refiero a ilimitado de acuerdo con las urls presentes en el sitio, ahora que podemos usar crawlspider y podemos construir expresiones regulares para la URL como abajo,
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
import re
class ExampleSpider(CrawlSpider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = [
"http://www.example.com/bookstore/new/1?filter=bookstore",
"http://www.example.com/bookstore/new/2?filter=bookstore",
"http://www.example.com/bookstore/new/3?filter=bookstore",
]
rules = (
Rule(SgmlLinkExtractor(allow=(........),))),
)
def parse(self, response):
hxs = HtmlXPathSelector(response)
Por favor, ¿puede guiarme? ¿Cómo puedo construir una regla de araña de rastreo para lo anterior?start_url
lista.