Wykluczanie niechcianych wyników findAll za pomocą BeautifulSoup
Korzystając z BeautifulSoup, zamierzam zeskrobać tekst powiązany z tym hakiem HTML:
<p class="review_comment">
Używając poniższego prostego kodu,
content = page.read()
soup = BeautifulSoup(content)
results = soup.find_all("p", "review_comment")
Z radością analizuję tekst, który tu mieszka:
<p class="review_comment">
This place is terrible!</p>
Zła wiadomość jest taka, że co 30 lub więcej razysoup.find_all
pasuje, pasuje i chwyta coś, czego naprawdę nie chcę, co jest starą recenzją użytkownika, którą od tego czasu zaktualizowali:
<p class="review_comment">
It's 1999, and I will always love this place…
<a href="#" class="show-archived">Read more »</a></p>
Próbując wykluczyć te stare duplikaty recenzji, spróbowałem wymieszać pomysły.
Próbowałem zmienić argumenty w moimsoup.find_all()
zadzwoń, aby wyraźnie wykluczyć dowolny tekstprzed <a href="#" class="show-archived">Read more »</a>
Utonęłam w dopasowywaniu limbo typu Regular Expressions bez powodzenia.Nie mogę wykorzystać tegoclass="show-archived"
atrybut.Wszelkie pomysły byłyby mile widziane. Z góry dziękuję.