Construyendo una expresión regular para url en la lista start_urls en scrapy framework python

Question

May 24, 2012, 03:34 PM

Construyendo una expresión regular para url en la lista start_urls en scrapy framework python

Soy muy nuevo en scrapy y tampoco usé expresiones regulares antes

El siguiente es mispider.py código

class ExampleSpider(BaseSpider):
   name = "test_code
   allowed_domains = ["www.example.com"]
   start_urls = [
       "http://www.example.com/bookstore/new/1?filter=bookstore",
       "http://www.example.com/bookstore/new/2?filter=bookstore",
       "http://www.example.com/bookstore/new/3?filter=bookstore",
   ]

   def parse(self, response):
       hxs = HtmlXPathSelector(response)

Ahora si nos fijamos enstart_urls todas las tres direcciones URL son iguales excepto que difieren en el valor entero2?, 3? y así, me refiero a ilimitado de acuerdo con las urls presentes en el sitio, ahora que podemos usar crawlspider y podemos construir expresiones regulares para la URL como abajo,

    from scrapy.contrib.spiders import CrawlSpider, Rule
    from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
    import re

    class ExampleSpider(CrawlSpider):
        name = 'example.com'
        allowed_domains = ['example.com']
        start_urls = [
       "http://www.example.com/bookstore/new/1?filter=bookstore",
       "http://www.example.com/bookstore/new/2?filter=bookstore",
       "http://www.example.com/bookstore/new/3?filter=bookstore",
   ]

        rules = (
            Rule(SgmlLinkExtractor(allow=(........),))),
        ) 

   def parse(self, response):
       hxs = HtmlXPathSelector(response)

Por favor, ¿puede guiarme? ¿Cómo puedo construir una regla de araña de rastreo para lo anterior?start_url lista.

Respuestas a la pregunta(2)

Preguntas populares

0 la respuesta

¿Cómo puedo permitir que los usuarios accedan a una tabla limitada a ciertas filas?

0 la respuesta

¿Cómo renombrar un archivo usando svn?

0 la respuesta

¿Cómo agregar objetos a un UIScrollView que se extienda más allá de UIView desde Storyboard?

0 la respuesta

iTextSharp texto internacional

0 la respuesta

Cómo manejar el botón Atrás de la Vista de búsqueda en Android

¡Eres muy activo! ¡Es genial!

Construyendo una expresión regular para url en la lista start_urls en scrapy framework python

Respuestas a la pregunta(2)

Su respuesta a la pregunta

Preguntas populares