BeautifulSoup: Como extraio todos os <li> s de uma lista de <ul> s que contém alguns <ul> s aninhados?

Question

Dec 06, 2010, 04:39 AM

BeautifulSoup: Como extraio todos os <li> s de uma lista de <ul> s que contém alguns <ul> s aninhados?

Meu código fonte se parece com:

<h3>Header3 (Start here)</h3>
<ul>
    <li>List items</li>
    <li>Etc...</li>
</ul>
<h3>Header 3</h3>
<ul>
    <li>List items</li>
    <ul>
        <li>Nested list items</li>
        <li>Nested list items</li></ul>
    <li>List items</li>
</ul>
<h2>Header 2 (end here)</h2>

Gostaria de todas as tags "li" após a primeira tag "h3" e parar na próxima tag "h2", incluindo todas as tags li aninhadas.

firstH3 = soup.find ('h3')

encontra corretamente o lugar que eu gostaria de começar.

firstH3 = soup.find('h3') # Start here
uls = []
for nextSibling in firstH3.findNextSiblings():
    if nextSibling.name == 'h2':
        break
    if nextSibling.name == 'ul':
        uls.append(nextSibling)

fornece uma lista de ULs, cada um com o conteúdo LI necessário.

EXCERTO DA LISTA "uls":

<ul>
...
    <li><i><a href="/wiki/Agent_Cody_Banks" title="Agent Cody Banks">Agent Cody Banks</a></i> (2003)</li>
    <li><i><a href="/wiki/Agent_Cody_Banks_2:_Destination_London" title="Agent Cody Banks 2: Destination London">Agent Cody Banks 2: Destination London</a></i> (2004)</li>
    <li>Air Bud series:
        <ul>
            <li><i><a href="/wiki/Air_Bud:_World_Pup" title="Air Bud: World Pup">Air Bud: World Pup</a></i> (2000)</li>
            <li><i><a href="/wiki/Air_Bud:_Seventh_Inning_Fetch" title="Air Bud: Seventh Inning Fetch">Air Bud: Seventh Inning Fetch</a></i> (2002)</li>
            <li><i><a href="/wiki/Air_Bud:_Spikes_Back" title="Air Bud: Spikes Back">Air Bud: Spikes Back</a></i> (2003)</li>
            <li><i><a href="/wiki/Air_Buddies" title="Air Buddies">Air Buddies</a></i> (2006)</li>
        </ul>
    </li>
    <li><i><a href="/wiki/Akeelah_and_the_Bee" title="Akeelah and the Bee">Akeelah and the Bee</a></i> (2006)</li>
...
</ul>

Mas não sei para onde ir a partir daqui. Eu sou um programador iniciante tentando pular para Python criando um script que raspahttp://en.wikipedia.org/wiki/2000s_in_film e extrai uma lista de "Título do filme (ano)".

Atualizar:

Código final:

lis = []
    for ul in uls:
        for li in ul.findAll('li'):
            if li.find('ul'):
                break
            lis.append(li)

    for li in lis:
        print li.text.encode("utf-8")

A quebra If -> libera os LIs que contêm ULs, pois os LIs aninhados agora estão duplicados.

A saída de impressão agora é:

102 Dálmatas (2000)10th & Wolf (2006)11:14 (2006)12:08 Leste de Bucareste (2006)13 Em 30 (2004)1408 (2007)...

obrigado

questionAnswers(2)

Perguntas populares

0 a resposta

Google Cloud Messaging - mensagens às vezes não recebidas até que o estado da rede seja alterado

0 a resposta

Como posso invocar um método a cada 5 segundos no android?

0 a resposta

Como randomizar a ordem dos elementos de uma lista e garantir que nenhum valor consecutivo seja igual?

0 a resposta

Sideloading apps no Windows 8 Pro

0 a resposta

Codificação HTML perdida quando o atributo é lido no campo de entrada

Você é muito ativo! É ótimo!

BeautifulSoup: Como extraio todos os &lt;li&gt; s de uma lista de &lt;ul&gt; s que contém alguns &lt;ul&gt; s aninhados?

questionAnswers(2)

yourAnswerToTheQuestion

Perguntas populares

BeautifulSoup: Como extraio todos os <li> s de uma lista de <ul> s que contém alguns <ul> s aninhados?