Extrair texto e links do HTML usando expressões regulares
Eu gostaria de extrair texto de um documento html mantendo os links dentro dele. por exemplo:
A partir deste código HTML
<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>
Eu gostaria de extrair apenas isso
bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello
Em outro post no StackOverflow eu encontrei o RegEx<[^>]*>
que permite extrair texto, substituindo todos os jogos por nada. Como posso excluir as tags de âncora da partida? Parece que o RegEx não permite correspondência inversa.