Extrahieren Sie Text und Links aus HTML mit regulären Ausdrücken

Question

Jan 02, 2010, 12:30 PM

Extrahieren Sie Text und Links aus HTML mit regulären Ausdrücken

Ich möchte Text aus einem HTML-Dokument extrahieren und die darin enthaltenen Links beibehalten. zum Beispiel:

Aus diesem HTML-Code

<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>

Ich möchte genau dies extrahieren

bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello

In einem anderen Beitrag auf StackOverflow habe ich den RegEx gefunden<[^>]*> Dadurch kann Text extrahiert werden, indem jede Übereinstimmung durch nichts ersetzt wird. Wie kann ich die Ankertags vom Match ausschließen? Es scheint, dass RegEx keine inverse Zuordnung zulässt.