Jak obliczyć podobieństwo częstotliwości liter?

Question

Mar 29, 2013, 08:38 PM

Jak obliczyć podobieństwo częstotliwości liter?

Biorąc pod uwagę te dane (względna częstotliwość liter z obu języków):

spanish => 'e' => 13.72, 'a' => 11.72, 'o' => 8.44, 's' => 7.20, 'n' => 6.83,
english => 'e' => 12.60, 't' => 9.37, 'a' => 8.34, 'o' => 7.70, 'n' => 6.80,

A następnie obliczenie częstotliwości liter dla ciągu „to jest test” daje mi:

"t"=>21.43, "s"=>14.29, "i"=>7.14, "r"=>7.14, "y"=>7.14, "'"=>7.14, "h"=>7.14, "e"=>7.14, "l"=>7.14

Więc jakie byłoby dobre podejście do dopasowania danej częstotliwości literowej do języka (i spróbowania wykryć język)? Widziałem (i przetestowałem) kilka przykładów wykorzystujących odległość levenshtein i wydaje się, że działa dobrze, dopóki nie dodasz więcej języków.

"this is a test" gives (shortest distance:) [:english, 13] ...
"esto es una prueba" gives (shortest distance:) [:spanish, 13] ...

questionAnswers(3)

Popularne pytania

0 odpowiedzi

Jak poczekać, aż aktor przestanie występować podczas zamykania systemu Play Framework?

0 odpowiedzi

SIGFPE podczas uzyskiwania dostępu do nieuporządkowanej mapy

0 odpowiedzi

XPathSelectElement wybiera drugi, gdy jest więcej niż jeden

0 odpowiedzi

Optymalizacja operacji INSERT / UPDATE / DELETE

0 odpowiedzi

Jak używać właściwości ScanLine do 24-bitowych map bitowych?

Jesteś bardzo aktywny! To świetnie!

Jak obliczyć podobieństwo częstotliwości liter?

questionAnswers(3)

yourAnswerToTheQuestion

Popularne pytania