Статистический подход с разделением слов

Я хочу решить проблему разделения слов (разбирать слова из длинной строки без пробелов). Например, мы хотим извлечь слова изsomelongword в[some, long, word].

Мы можем добиться этого с помощью некоторого динамического подхода со словарем, но другая проблема, с которой мы сталкиваемся, - это анализ неоднозначности. То естьorcore =>or core или жеorc ore (Мы не учитываем значение фразы или часть речи). Поэтому я думаю об использовании некоторого статистического или ML подхода.

Я обнаружил, что для решения этой проблемы можно использовать алгоритм Na, Ive Bayes и Viterbi с набором поездов. Можете ли вы указать мне некоторую информацию о применении этих алгоритмов к проблеме разделения слов?

UPD: я реализовал этот метод на Clojure, используя советы от Питера Норвигкод

Ответы на вопрос(2)

Ваш ответ на вопрос