Построение регулярного выражения для url в списке start_urls в среде Scrapy Python

Question

Jul 21, 2014, 10:41 PM

Построение регулярного выражения для url в списке start_urls в среде Scrapy Python

Я очень плохо знаком с терапией, а также раньше не использовал регулярные выражения

Следующее - мойspider.py код

class ExampleSpider(BaseSpider):
   name = "test_code
   allowed_domains = ["www.example.com"]
   start_urls = [
       "http://www.example.com/bookstore/new/1?filter=bookstore",
       "http://www.example.com/bookstore/new/2?filter=bookstore",
       "http://www.example.com/bookstore/new/3?filter=bookstore",
   ]

   def parse(self, response):
       hxs = HtmlXPathSelector(response)

Теперь, если мы посмотрим наstart_urls все три URL-адреса одинаковы, за исключением того, что они отличаются целочисленным значением2?, 3? и т. д. Я имею в виду неограниченное в соответствии с URL-адресами, представленными на сайте, теперь я могу использовать crawlspider и создавать регулярное выражение для URL, как показано ниже,

    from scrapy.contrib.spiders import CrawlSpider, Rule
    from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
    import re

    class ExampleSpider(CrawlSpider):
        name = 'example.com'
        allowed_domains = ['example.com']
        start_urls = [
       "http://www.example.com/bookstore/new/1?filter=bookstore",
       "http://www.example.com/bookstore/new/2?filter=bookstore",
       "http://www.example.com/bookstore/new/3?filter=bookstore",
   ]

        rules = (
            Rule(SgmlLinkExtractor(allow=(........),))),
        ) 

   def parse(self, response):
       hxs = HtmlXPathSelector(response)

Можете ли вы направить меня, как я могу построить Правило паука сканирования для вышеупомянутогоstart_url список.

Построение регулярного выражения для url в списке start_urls в среде Scrapy Python

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Построение регулярного выражения для url в списке start_urls в среде Scrapy Python

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы