Extrahieren Sie Text und Links aus HTML mit regulären Ausdrücken
Ich möchte Text aus einem HTML-Dokument extrahieren und die darin enthaltenen Links beibehalten. zum Beispiel:
Aus diesem HTML-Code
<div class="CssClass21">bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 <img src="http://www.contoso.com/hello.jpg"> <span class="cssClass34">hello hello</span>
Ich möchte genau dies extrahieren
bla1 bla1 bla1 <a href="http://www.ibrii.com">go to ibrii</a> bla2 bla2 bla2 hello hello
In einem anderen Beitrag auf StackOverflow habe ich den RegEx gefunden<[^>]*>
Dadurch kann Text extrahiert werden, indem jede Übereinstimmung durch nichts ersetzt wird. Wie kann ich die Ankertags vom Match ausschließen? Es scheint, dass RegEx keine inverse Zuordnung zulässt.