Como se livrar da pontuação usando o tokenizer NLTK?
Estou apenas começando a usar o NLTK e não entendo como obter uma lista de palavras do texto. Se eu usarnltk.word_tokenize()
, Eu recebo uma lista de palavras e pontuação. Eu preciso apenas das palavras em seu lugar. Como posso me livrar da pontuação? Além dissoword_tokenize
não funciona com múltiplas frases: pontos são adicionados à última palavra.