Extrahieren Sie Text und Links aus HTML mit regulären Ausdrücken

Ich möchte Text aus einem HTML-Dokument extrahieren und die darin enthaltenen Links beibehalten. zum Beispiel:

Aus diesem HTML-Code

<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>

Ich möchte genau dies extrahieren

bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello

In einem anderen Beitrag auf StackOverflow habe ich den RegEx gefunden<[^>]*> Dadurch kann Text extrahiert werden, indem jede Übereinstimmung durch nichts ersetzt wird. Wie kann ich die Ankertags vom Match ausschließen? Es scheint, dass RegEx keine inverse Zuordnung zulässt.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage