qual tokenizer é melhor para ser usado com o nltk
Eu comecei a aprendernltk
e seguindoesta tutorial. Primeiro, usamos o tokenizer interno usandosent_tokenize
e depois usamosPunktSentenceTokenizer
. O tutorial menciona quePunktSentenceTokenizer
é capaz de aprendizado de máquina não supervisionado.
Então, isso significa que é melhor que o padrão? Ou qual é o padrão de comparação entre vários tokenizadores?