PHP para limpiar la entrada pegada de Microsoft

Tengo un sitio donde los usuarios pueden publicar cosas (como en foros, comentarios, etc.) utilizando una implementación personalizada de TinyMCE. A muchos de ellos les gusta copiar y pegar desde Word, lo que significa que su entrada a menudo viene con una gran cantidad de formatos en línea asociados de MS.

No puedo deshacerme de<span whatever> ya que TinyMCE se basa en la etiqueta span para algunos de sus formatos, y no puedo (y no quiero) obligar a dichos usuarios a usar la función "Pegar de Word" de TinyMCE (que de todos modos no parece funcionar tan bien) .

¿Alguien sabe de una biblioteca / clase / función que se encargue de esto por mí? Debe ser un problema común, aunque no puedo encontrar nada definitivo. He estado pensando recientemente que una serie de expresiones regulares de fuerza bruta en busca de patrones específicos de MS podría ser el truco, pero no quiero volver a escribir algo que ya puede estar disponible a menos que deba hacerlo.

Además, la fijación de comillas rizadas, guiones largos, etc. sería bueno. Tengo mis propias cosas para hacer esto ahora, pero realmente me gustaría encontrar un filtro de conversión de MS para gobernarlos a todos.

Respuestas a la pregunta(4)

Su respuesta a la pregunta