Criando um corpus categorizado customizado no NLTK e Python
Eu estou experimentando um pouco de um problema que tem a ver com expressões regulares eCategorizedPlaintextCorpusReader
em Python.
Eu quero criar um corpus categorizado personalizado e treinar um classificador Naive-Bayes nele. Meu problema é o seguinte: Eu quero ter duas categorias, "pos" e "neg". Os arquivos positivos estão todos em um diretório,main_dir/pos/*.txt
e os negativos estão em um diretório separado,main_dir/neg/*.txt
.
Como posso usar oCategorizedPlaintextCorpusReader
para carregar e rotular todos os arquivos positivos no diretório pos, e fazer o mesmo para os negativos?
NB: A configuração é absolutamente a mesma que aMovie_reviews
corpus (~nltk_data\corpora\movie_reviews
).