Palavra dividindo abordagem estatística

Quero resolver o problema de divisão de palavras (analise as palavras de uma sequência longa sem espaços). Por exemplo, queremos extrair palavras desomelongword para[some, long, word].

Podemos conseguir isso por meio de uma abordagem dinâmica com o dicionário, mas outro problema que encontramos é analisar a ambiguidade. I.e.orcore =>or core ouorc ore (Não levamos em consideração o significado da frase ou parte do discurso). Então, eu penso sobre o uso de alguma abordagem estatística ou ML.

Descobri que o algoritmo Na, ive Bayes e Viterbi com conjunto de trens pode ser usado para resolver isso. Você pode me indicar algumas informações sobre a aplicação desses algoritmos ao problema de divisão de palavras?

UPD: Eu implementei esse método no Clojure, usando alguns conselhos do @ Peter Norvig'códig

questionAnswers(4)

yourAnswerToTheQuestion