Utilizando mi propio corpus para la clasificación de categoría en Python NLTK

Question

Jan 11, 2012, 12:13 PM

Utilizando mi propio corpus para la clasificación de categoría en Python NLTK

Soy un principiante de NTLK / Python y logré cargar mi propio corpus usando CategorizedPlaintextCorpusReader, pero ¿cómo realmente entreno y uso los datos para la clasificación de texto?

>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt')
>>> len(reader.categories())
234