PHP para limpar a entrada colada da Microsoft

Eu tenho um site onde os usuários podem postar coisas (como em fóruns, comentários, etc.) usando uma implementação personalizada do TinyMCE. Muitos deles gostam de copiar e colar do Word, o que significa que sua entrada geralmente vem com uma infinidade de formatação in-line associada ao MS.

Eu não posso simplesmente me livrar de<span whatever> como o TinyMCE conta com a tag span para parte de sua formatação, e não posso (e não quero) forçar os usuários a usar o recurso "Colar do Word" do TinyMCE (que parece não funcionar tão bem assim) .

Alguém sabe de uma biblioteca / classe / função que cuidaria disso para mim? Deve ser um problema comum, embora não encontre nada definitivo. Recentemente, estive pensando que uma série de expressões de força bruta à procura de padrões específicos de MS pode ajudar, mas não quero reescrever algo que já esteja disponível, a menos que eu precise.

Além disso, seria bom fixar aspas, traços, etc. Agora tenho minhas próprias coisas para fazer isso, mas eu realmente gostaria de encontrar um filtro de conversão de MS para governar todos eles.

questionAnswers(4)

yourAnswerToTheQuestion