Pele las etiquetas HTML para obtener cadenas en Python

Question

Apr 07, 2014, 03:48 PM

strip beautifulsoup html html-parsing python

Pele las etiquetas HTML para obtener cadenas en Python

Intenté obtener algunas cadenas de un archivo HTML con BeautifulSoup y cada vez que trabajo con él obtengo resultados parciales.

Quiero obtener las cadenas en cada elemento / etiqueta li. Hasta ahora he podido obtener todo en ul como este.

#!/usr/bin/python
from bs4 import BeautifulSoup
page = open("page.html")
soup = BeautifulSoup(page)
source = soup.select(".sidebar li")

Y lo que obtengo es esto:

[<li class="first">
        Def Leppard -  Make Love Like A Man<span>Live</span> </li>, <li>
        Inxs - Never Tear Us Apart        </li>, <li>
        Gary Moore - Over The Hills And Far Away        </li>, <li>
        Linkin Park -  Numb        </li>, <li>
        Vita De Vie -  Basul Si Cu Toba Mare        </li>, <li>
        Nazareth - Love Hurts        </li>, <li>
        U2 - I Still Haven't Found What I'm L        </li>, <li>
        Blink 182 -  All The Small Things        </li>, <li>
        Scorpions -  Wind Of Change        </li>, <li>
        Iggy Pop - The Passenger        </li>]

Quiero obtener solo las cadenas de esto.