Enfoque estadístico de división de palabras
Quiero resolver el problema de división de palabras (analizar palabras de una cadena larga sin espacios). Por ejemplo, queremos extraer palabras desomelongword
a[some, long, word]
.
Podemos lograr esto mediante un enfoque dinámico con el diccionario, pero otro problema que encontramos es analizar la ambigüedad. Es decir. @orcore
=>or core
oorc ore
(No tomamos en cuenta el significado de la frase o parte del discurso). Así que pienso en el uso de algún enfoque estadístico o ML.
Encontré que el algoritmo Na, ive Bayes y Viterbi con conjunto de trenes se puede utilizar para resolver esto. ¿Me puede dar alguna información sobre la aplicación de estos algoritmos al problema de división de palabras?
UPD: he implementado este método en Clojure, usando algunos consejos de Peter Norvig'scódig