Extrae texto y enlaces de HTML usando expresiones regulares
Me gustaría extraer texto de un documento html manteniendo los enlaces dentro de él. por ejemplo:
De este código HTML
<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>
Me gustaría extraer solo esto
bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello
En otro post en StackOverflow he encontrado el RegEx<[^>]*>
lo que permite extraer texto reemplazando cada coincidencia con nada. ¿Cómo puedo excluir las etiquetas de anclaje de la coincidencia? Parece que RegEx no permite la coincidencia inversa.