какой токенизатор лучше использовать с nltk
Я начал учитьсяnltk
и послеэтот руководство. Сначала мы используем встроенный токенизатор с помощьюsent_tokenize
а позже мы используемPunktSentenceTokenizer
, Учебник упоминает, чтоPunktSentenceTokenizer
способен на безконтрольное машинное обучение.
Значит ли это, что это лучше, чем по умолчанию? Или каков стандарт сравнения между различными токенизаторами?