BeautifulSoup - простой способ получения содержимого без HTML

Question

Nov 17, 2009, 11:38 PM

beautifulsoup html-content-extraction python html-parsing

BeautifulSoup - простой способ получения содержимого без HTML

Я использую этот код, чтобы найти все интересные ссылки на странице:

soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))

И это делает свою работу довольно хорошо. К сожалению, внутри этого есть много вложенных тегов, напримершрифт, б и разные вещи ... яЯ хотел бы получить только текстовое содержимое, без каких-либо других тегов HTML.

Пример ссылки:

<a href="notizia.php?idn=1134" onmouseover="verde();" onmouseout="blu();">03-11-2009:  CCS Ingegneria Elettronica-Sportello studenti ed orientamento</a>

Конечноуродливый (и разметка не всегда одна и та же!) и яхотел бы получить:

03-11-2009:  CCS Ingegneria Elettronica-Sportello studenti ed orientamento

В документации сказано использоватьtext=True в методе findAll, но он будет игнорировать мое регулярное выражение. Зачем? Как я могу решить это?

BeautifulSoup - простой способ получения содержимого без HTML

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

BeautifulSoup - простой способ получения содержимого без HTML

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы