Dlaczego kod dzielenia wyrazów Synopse daje różne wyniki z TeX-a?

Question

Apr 15, 2012, 06:08 AM

Dlaczego kod dzielenia wyrazów Synopse daje różne wyniki z TeX-a?

To pytanie następujepoprzednie pytanie ale inny.Dzielenie delphi przez Synopse jest bardzo szybki i buduje na OpenOfficebiblioteka libhnj używająca dzielenia wyrazów TeX.

Prosty test to:

Jeśli wprowadzę „wymowę”, dzielenie wyrazów Synopse wyświetli „pro = nun = ci = ation” (4 możliwe myślniki lub sylaby). // (nie „pro = nun = ci = a = tion”, 5 myślników lub sylab).

Przeczytałem 2 artykuły (tutaj itutaj) o algorytmie dzielenia wyrazów Tex w sylabizacji. Autorzy stwierdzili około 95% dokładności sylabizacji. Testowałem dzielenie wyrazów Synopse tylko w celu zliczania sylabSłownik wymowy CMU, ale tylko około 53% dokładności.

Dlaczego wynik jest znacząco inny?

Powielam moją metodę w trochę szczegółowy sposób.

Analizuję słownik wymowy CMU, aby obliczyć całą liczbę słów. CMU dic jest jak:

<code>PRONOUNS  P R OW1 N AW0 N Z
PRONOVOST  P R OW0 N OW1 V OW0 S T
PRONTO  P R AA1 N T OW0
PRONUNCIATION  P R OW0 N AH2 N S IY0 EY1 SH AH0 N
PRONUNCIATION(1)  P R AH0 N AH2 N S IY0 EY1 SH AH0 N
</code>

Będę miał ten wynik:

<code>PRONOUNS=2
PRONOVOST=3
PRONTO=2
PRONUNCIATION(1)=5 // will be ignored
PRONUNCIATION=5   // use this one
</code>

Słowa z nawiasami zostaną zignorowane w porównaniu z biblioteką dzielenia wyrazów Synopse. Są to alternatywne lub wtórne wymowy (warianty).

Podobnie użyję biblioteki dzielenia wyrazów do obliczenia liczby sylab każdego słowa w słowniku CMU. Następnie porównuję te dwie, aby zobaczyć, ile pasuje. Słowa o różnej liczbie sylab są zapisywane jak poniżej:

<code>...

94814 cmu PROMULGATED=4 | PROMULGATED=3 Synopse Hyphenation
94821 cmu PRONGER=2 | PRONGER=1 Synopse Hyphenation
94829 cmu PRONOUNCES=3 | PRONOUNCES=2 Synopse Hyphenation
94833 cmu PRONTO=2 | PRONTO=1 Synopse Hyphenation
94835 cmu PRONUNCIATION=5 | PRONUNCIATION=4 Synopse Hyphenation

...
</code>

Łączny numer linii CMU to 123611 (wyłączając linie z nawiasami i liniami bez znaczących słów, jak linie cudzysłowu „(”). Łączna liczba sylab wpodobnie słowa dla dwóch: 57870.

CMU może nie być standardem liczb sylabowych. W tym teście (123611-57870) /123611=53.183%. Jest to znacząco różne od współczynnika dokładności podanego przez autora w ich pracy powyżej. Oczywiście do testów wykorzystali inną bazę danych (CELEX). Dlaczego wynik jest inny?

Biblioteka dzielenia wyrazów Synopse jest bardzo szybka. Chcę wiedzieć więcej, jeśli jest to spowodowane plikiem wzorca (plik dic używany do dzielenia wyrazów pierwotnie z libhnj używanego w OpenOffice). A może autor artykułu użył innego pliku słownika?