BeautifulSoup - простой способ получения содержимого без HTML
Я использую этот код, чтобы найти все интересные ссылки на странице:
soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))
И это делает свою работу довольно хорошо. К сожалению, внутри этого есть много вложенных тегов, напримершрифт, б и разные вещи ... яЯ хотел бы получить только текстовое содержимое, без каких-либо других тегов HTML.
Пример ссылки:
<a href="notizia.php?idn=1134" onmouseover="verde();" onmouseout="blu();">03-11-2009: CCS Ingegneria Elettronica-Sportello studenti ed orientamento</a>
Конечноуродливый (и разметка не всегда одна и та же!) и яхотел бы получить:
03-11-2009: CCS Ingegneria Elettronica-Sportello studenti ed orientamento
В документации сказано использоватьtext=True
в методе findAll, но он будет игнорировать мое регулярное выражение. Зачем? Как я могу решить это?