tokenización nltk y contracciones

Question

Jul 05, 2012, 09:32 PM

tokenización nltk y contracciones

Estoy tokenizing texto con nltk, solo oraciones alimentadas a wordpunct_tokenizer. Esto divide las contracciones (por ejemplo, 'no' a 'don' + "'" +' t ') pero quiero mantenerlas como una sola palabra. Estoy refinando mis métodos para una tokenización de texto más precisa y precisa, por lo que necesito profundizar en el módulo de tokenización nltk más allá de la tokenización simple.

Supongo que esto es común y me gustaría recibir comentarios de otras personas que tal vez hayan tenido que lidiar con el problema en particular antes.

editar:

Sí, esta es una pregunta general, salpicada que sé

Además, como novato en nlp, ¿debo preocuparme por las contracciones?

EDITAR:

El SExprTokenizer o TreeBankWordTokenizer parece hacer lo que estoy buscando por ahora.