Criando um corpus categorizado customizado no NLTK e Python

Question

May 05, 2012, 06:44 PM

Criando um corpus categorizado customizado no NLTK e Python

Eu estou experimentando um pouco de um problema que tem a ver com expressões regulares eCategorizedPlaintextCorpusReader em Python.

Eu quero criar um corpus categorizado personalizado e treinar um classificador Naive-Bayes nele. Meu problema é o seguinte: Eu quero ter duas categorias, "pos" e "neg". Os arquivos positivos estão todos em um diretório,main_dir/pos/*.txte os negativos estão em um diretório separado,main_dir/neg/*.txt.

Como posso usar oCategorizedPlaintextCorpusReader para carregar e rotular todos os arquivos positivos no diretório pos, e fazer o mesmo para os negativos?

NB: A configuração é absolutamente a mesma que aMovie_reviews corpus (~nltk_data\corpora\movie_reviews).