Dynamiczne witryny internetowe Python Scrapy

Question

Jan 19, 2014, 08:33 PM

Dynamiczne witryny internetowe Python Scrapy

Próbuję zeskrobać bardzo prostą stronę internetową za pomocą Scrapy i selektorów xpath, ale z jakiegoś powodu selektory, które mam, nie działają w Scrapy, ale działają w innych narzędziach xpath

Próbuję przeanalizować ten fragment kodu HTML:

<select id="chapterMenu" name="chapterMenu">

<option value="/111-3640-1/20th-century-boys/chapter-1.html" selected="selected">Chapter 1: Friend</option>

<option value="/111-3641-1/20th-century-boys/chapter-2.html">Chapter 2: Karaoke</option>

<option value="/111-3642-1/20th-century-boys/chapter-3.html">Chapter 3: The Boy Who Bought a Guitar</option>

<option value="/111-3643-1/20th-century-boys/chapter-4.html">Chapter 4: Snot Towel</option>

<option value="/111-3644-1/20th-century-boys/chapter-5.html">Chapter 5: Night of the Science Room</option>

</select>

Scrapy parse_item code:

def parse_item(self, response):
    itemLoader = XPathItemLoader(item=MangaItem(), response=response)
    itemLoader.add_xpath('chapter', '//select[@id="chapterMenu"]/option[@selected="selected"]/text()')
    return itemLoader.load_item()

Scrapy nie wyodrębnia z tego tekstu żadnego tekstu, ale jeśli otrzymam ten sam fragment xpath i html i go uruchomiętutaj działa dobrze.

jeśli użyję tej ścieżki: