Palavra dividindo abordagem estatística
Quero resolver o problema de divisão de palavras (analise as palavras de uma sequência longa sem espaços). Por exemplo, queremos extrair palavras desomelongword
para[some, long, word]
.
Podemos conseguir isso por meio de uma abordagem dinâmica com o dicionário, mas outro problema que encontramos é analisar a ambiguidade. I.e.orcore
=>or core
ouorc ore
(Não levamos em consideração o significado da frase ou parte do discurso). Então, eu penso sobre o uso de alguma abordagem estatística ou ML.
Descobri que o algoritmo Na, ive Bayes e Viterbi com conjunto de trens pode ser usado para resolver isso. Você pode me indicar algumas informações sobre a aplicação desses algoritmos ao problema de divisão de palavras?
UPD: Eu implementei esse método no Clojure, usando alguns conselhos do @ Peter Norvig'códig