welche tokenizer ist besser mit nltk @ verwendet werd
Ich habe angefangen zu lernennltk
und folgendeDie Lernprogramm. Zuerst benutzen wir den eingebauten Tokenizer mitsent_tokenize
und später verwenden wirPunktSentenceTokenizer
. Das Tutorial erwähnt, dassPunktSentenceTokenizer
kann unbeaufsichtigt maschinelles Lernen durchführen.
Also heißt das, es ist besser als die Standardeinstellung? Oder was ist der Vergleichsstandard zwischen verschiedenen Tokenisierern?