Построение регулярного выражения для url в списке start_urls в среде Scrapy Python
Я очень плохо знаком с терапией, а также раньше не использовал регулярные выражения
Следующее - мойspider.py
код
class ExampleSpider(BaseSpider):
name = "test_code
allowed_domains = ["www.example.com"]
start_urls = [
"http://www.example.com/bookstore/new/1?filter=bookstore",
"http://www.example.com/bookstore/new/2?filter=bookstore",
"http://www.example.com/bookstore/new/3?filter=bookstore",
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
Теперь, если мы посмотрим наstart_urls
все три URL-адреса одинаковы, за исключением того, что они отличаются целочисленным значением2?, 3?
и т. д. Я имею в виду неограниченное в соответствии с URL-адресами, представленными на сайте, теперь я могу использовать crawlspider и создавать регулярное выражение для URL, как показано ниже,
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
import re
class ExampleSpider(CrawlSpider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = [
"http://www.example.com/bookstore/new/1?filter=bookstore",
"http://www.example.com/bookstore/new/2?filter=bookstore",
"http://www.example.com/bookstore/new/3?filter=bookstore",
]
rules = (
Rule(SgmlLinkExtractor(allow=(........),))),
)
def parse(self, response):
hxs = HtmlXPathSelector(response)
Можете ли вы направить меня, как я могу построить Правило паука сканирования для вышеупомянутогоstart_url
список.