Utilizando mi propio corpus para la clasificación de categoría en Python NLTK
Soy un principiante de NTLK / Python y logré cargar mi propio corpus usando CategorizedPlaintextCorpusReader, pero ¿cómo realmente entreno y uso los datos para la clasificación de texto?
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt')
>>> len(reader.categories())
234