tokenização nltk e contrações

Question

Jul 05, 2012, 09:32 PM

tokenização nltk e contrações

Estou tokenizing texto com nltk, apenas frases alimentadas para wordpunct_tokenizer. Isso divide as contrações (por exemplo, 'não' para 'don' + "'" +' t '), mas quero mantê-las como uma palavra. Estou refinando meus métodos para uma tokenização de texto mais medida e precisa, então preciso me aprofundar no módulo de tokenização nltk além da simples tokenização.

Eu estou supondo que isso é comum e gostaria de receber comentários de outras pessoas que talvez tenham tido que lidar com a questão em particular antes.

editar:

Sim, esta é uma pergunta geral, splattershot eu sei

Além disso, como um novato para nlp, eu preciso me preocupar com contrações em tudo?

EDITAR:

O SExprTokenizer ou TreeBankWordTokenizer parece fazer o que estou procurando agora.