Извлечение текста и ссылок из HTML с помощью регулярных выражений

Question

Jan 02, 2010, 12:30 PM

Извлечение текста и ссылок из HTML с помощью регулярных выражений

Я хотел бы извлечь текст из HTML-документа, сохраняя ссылки внутри него. например:

Из этого HTML-кода

<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>

Я хотел бы извлечь только это

bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello

В другом сообщении о StackOverflow я нашел RegEx<[^>]*> который позволяет извлечь текст, заменяя каждое совпадение ничем. Как я могу исключить теги привязки из совпадения? Похоже, что RegEx не разрешают обратное сопоставление.

Извлечение текста и ссылок из HTML с помощью регулярных выражений

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Извлечение текста и ссылок из HTML с помощью регулярных выражений

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы