Wykluczanie niechcianych wyników findAll za pomocą BeautifulSoup

Question

Oct 14, 2013, 01:34 AM

Wykluczanie niechcianych wyników findAll za pomocą BeautifulSoup

Korzystając z BeautifulSoup, zamierzam zeskrobać tekst powiązany z tym hakiem HTML:

<p class="review_comment">

Używając poniższego prostego kodu,

content = page.read()  
soup = BeautifulSoup(content)  
results = soup.find_all("p", "review_comment")

Z radością analizuję tekst, który tu mieszka:

<p class="review_comment">
    This place is terrible!</p>

Zła wiadomość jest taka, że co 30 lub więcej razysoup.find_all pasuje, pasuje i chwyta coś, czego naprawdę nie chcę, co jest starą recenzją użytkownika, którą od tego czasu zaktualizowali:

<p class="review_comment">
    It's 1999, and I will always love this place…  
<a href="#" class="show-archived">Read more &raquo;</a></p>

Próbując wykluczyć te stare duplikaty recenzji, spróbowałem wymieszać pomysły.

Próbowałem zmienić argumenty w moimsoup.find_all() zadzwoń, aby wyraźnie wykluczyć dowolny tekstprzed <a href="#" class="show-archived">Read more »</a>Utonęłam w dopasowywaniu limbo typu Regular Expressions bez powodzenia.Nie mogę wykorzystać tegoclass="show-archived" atrybut.

Wszelkie pomysły byłyby mile widziane. Z góry dziękuję.