Статистический подход с разделением слов
Я хочу решить проблему разделения слов (разбирать слова из длинной строки без пробелов). Например, мы хотим извлечь слова изsomelongword
в[some, long, word]
.
Мы можем добиться этого с помощью некоторого динамического подхода со словарем, но другая проблема, с которой мы сталкиваемся, - это анализ неоднозначности. То естьorcore
=>or core
или жеorc ore
(Мы не учитываем значение фразы или часть речи). Поэтому я думаю об использовании некоторого статистического или ML подхода.
Я обнаружил, что для решения этой проблемы можно использовать алгоритм Na, Ive Bayes и Viterbi с набором поездов. Можете ли вы указать мне некоторую информацию о применении этих алгоритмов к проблеме разделения слов?
UPD: я реализовал этот метод на Clojure, используя советы от Питера Норвигкод