Dynamiczne witryny internetowe Python Scrapy
Próbuję zeskrobać bardzo prostą stronę internetową za pomocą Scrapy i selektorów xpath, ale z jakiegoś powodu selektory, które mam, nie działają w Scrapy, ale działają w innych narzędziach xpath
Próbuję przeanalizować ten fragment kodu HTML:
<select id="chapterMenu" name="chapterMenu">
<option value="/111-3640-1/20th-century-boys/chapter-1.html" selected="selected">Chapter 1: Friend</option>
<option value="/111-3641-1/20th-century-boys/chapter-2.html">Chapter 2: Karaoke</option>
<option value="/111-3642-1/20th-century-boys/chapter-3.html">Chapter 3: The Boy Who Bought a Guitar</option>
<option value="/111-3643-1/20th-century-boys/chapter-4.html">Chapter 4: Snot Towel</option>
<option value="/111-3644-1/20th-century-boys/chapter-5.html">Chapter 5: Night of the Science Room</option>
</select>
Scrapy parse_item code:
def parse_item(self, response):
itemLoader = XPathItemLoader(item=MangaItem(), response=response)
itemLoader.add_xpath('chapter', '//select[@id="chapterMenu"]/option[@selected="selected"]/text()')
return itemLoader.load_item()
Scrapy nie wyodrębnia z tego tekstu żadnego tekstu, ale jeśli otrzymam ten sam fragment xpath i html i go uruchomiętutaj działa dobrze.
jeśli użyję tej ścieżki:
//select[@id="chapterMenu"]
Dostaję poprawny element, ale kiedy próbuję uzyskać dostęp do opcji wewnątrz, nic nie dostaje