Extrae texto y enlaces de HTML usando expresiones regulares

Question

Jan 02, 2010, 12:30 PM

Extrae texto y enlaces de HTML usando expresiones regulares

Me gustaría extraer texto de un documento html manteniendo los enlaces dentro de él. por ejemplo:

De este código HTML

<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>

Me gustaría extraer solo esto

bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello

En otro post en StackOverflow he encontrado el RegEx<[^>]*> lo que permite extraer texto reemplazando cada coincidencia con nada. ¿Cómo puedo excluir las etiquetas de anclaje de la coincidencia? Parece que RegEx no permite la coincidencia inversa.