Как вычислить сходство частот букв?

Учитывая эти данные (относительная частота букв на обоих языках):

spanish => 'e' => 13.72, 'a' => 11.72, 'o' => 8.44, 's' => 7.20, 'n' => 6.83,
english => 'e' => 12.60, 't' => 9.37, 'a' => 8.34, 'o' => 7.70, 'n' => 6.80,

А затем вычислить частоту букв для строкиЭто тест" дает мне:

"t"=>21.43, "s"=>14.29, "i"=>7.14, "r"=>7.14, "y"=>7.14, "'"=>7.14, "h"=>7.14, "e"=>7.14, "l"=>7.14

Итак, что будет хорошим подходом для сопоставления заданной частоты строковых букв с языком (и попытаться определить язык)? Я'Мы видели (и проверяли) некоторые примеры, использующие расстояние Левенштейна, и, кажется, он работает нормально, пока вы не добавите больше языков.

"this is a test" gives (shortest distance:) [:english, 13] ...
"esto es una prueba" gives (shortest distance:) [:spanish, 13] ...

Ответы на вопрос(3)

Ваш ответ на вопрос