PHP zum Aufräumen eingefügter Microsoft-Eingaben

Ich habe eine Site, auf der Benutzer mithilfe einer benutzerdefinierten Implementierung von TinyMCE Inhalte veröffentlichen können (z. B. Foren, Kommentare usw.). Viele von ihnen kopieren und fügen sie gerne aus Word ein, was bedeutet, dass ihre Eingaben häufig mit einer Vielzahl von MS-Inline-Formatierungen verbunden sind.

Ich kann nicht einfach @ loswerd<span whatever> as TinyMCE verwendet das span-Tag für einige seiner Formatierungen, und ich kann (und möchte nicht) die genannten Benutzer zwingen, die Funktion "Einfügen aus Word" von TinyMCE zu verwenden (was ohnehin nicht so gut zu funktionieren scheint) ).

Kennt jemand eine Bibliothek / Klasse / Funktion, die das für mich erledigen würde? Es muss ein häufiges Problem sein, obwohl ich nichts Bestimmtes finden kann. Ich habe kürzlich darüber nachgedacht, dass eine Reihe von Brute-Force-Regexen, die nach MS-spezifischen Mustern suchen, den Trick machen könnten, aber ich möchte nicht etwas neu schreiben, das möglicherweise bereits verfügbar ist, es sei denn, ich muss.

Auch die Korrektur von geschweiften Anführungszeichen, Bindestrichen usw. wäre gut. Ich habe jetzt meine eigenen Sachen, aber ich möchte wirklich nur einen MS-Konvertierungsfilter finden, der sie alle regiert.

Antworten auf die Frage(8)

Ihre Antwort auf die Frage