¿Cómo deshacerse de la puntuación utilizando el tokenizador NLTK?
Estoy empezando a usar NLTK y no entiendo bien cómo obtener una lista de palabras del texto. Si yo usonltk.word_tokenize()
, Me sale una lista de palabras y puntuación. Sólo necesito las palabras en su lugar. ¿Cómo puedo deshacerme de la puntuación? tambiénword_tokenize
no funciona con oraciones múltiples: se agregan puntos a la última palabra.