Извлечение текста и ссылок из HTML с помощью регулярных выражений
Я хотел бы извлечь текст из HTML-документа, сохраняя ссылки внутри него. например:
Из этого HTML-кода
<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>
Я хотел бы извлечь только это
bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello
В другом сообщении о StackOverflow я нашел RegEx<[^>]*>
который позволяет извлечь текст, заменяя каждое совпадение ничем. Как я могу исключить теги привязки из совпадения? Похоже, что RegEx не разрешают обратное сопоставление.