Como se livrar da pontuação usando o tokenizer NLTK?

Question

Mar 21, 2013, 01:22 PM

Como se livrar da pontuação usando o tokenizer NLTK?

Estou apenas começando a usar o NLTK e não entendo como obter uma lista de palavras do texto. Se eu usarnltk.word_tokenize(), Eu recebo uma lista de palavras e pontuação. Eu preciso apenas das palavras em seu lugar. Como posso me livrar da pontuação? Além dissoword_tokenize não funciona com múltiplas frases: pontos são adicionados à última palavra.