Enfoque estadístico de división de palabras

Question

Mar 12, 2012, 11:37 AM

Enfoque estadístico de división de palabras

Quiero resolver el problema de división de palabras (analizar palabras de una cadena larga sin espacios). Por ejemplo, queremos extraer palabras desomelongword a[some, long, word].

Podemos lograr esto mediante un enfoque dinámico con el diccionario, pero otro problema que encontramos es analizar la ambigüedad. Es decir. @orcore =>or core oorc ore (No tomamos en cuenta el significado de la frase o parte del discurso). Así que pienso en el uso de algún enfoque estadístico o ML.

Encontré que el algoritmo Na, ive Bayes y Viterbi con conjunto de trenes se puede utilizar para resolver esto. ¿Me puede dar alguna información sobre la aplicación de estos algoritmos al problema de división de palabras?

UPD: he implementado este método en Clojure, usando algunos consejos de Peter Norvig'scódig