tokenización nltk y contracciones
Estoy tokenizing texto con nltk, solo oraciones alimentadas a wordpunct_tokenizer. Esto divide las contracciones (por ejemplo, 'no' a 'don' + "'" +' t ') pero quiero mantenerlas como una sola palabra. Estoy refinando mis métodos para una tokenización de texto más precisa y precisa, por lo que necesito profundizar en el módulo de tokenización nltk más allá de la tokenización simple.
Supongo que esto es común y me gustaría recibir comentarios de otras personas que tal vez hayan tenido que lidiar con el problema en particular antes.
editar:
Sí, esta es una pregunta general, salpicada que sé
Además, como novato en nlp, ¿debo preocuparme por las contracciones?
EDITAR:
El SExprTokenizer o TreeBankWordTokenizer parece hacer lo que estoy buscando por ahora.