Creación de un corpus categorizado personalizado en NLTK y Python
Estoy experimentando un pequeño problema que tiene que ver con expresiones regulares yCategorizedPlaintextCorpusReader
en pitón.
Quiero crear un corpus categorizado personalizado y entrenar un clasificador de Naive-Bayes en él. Mi problema es el siguiente: quiero tener dos categorías, "pos" y "neg". Los archivos positivos están todos en un directorio,main_dir/pos/*.txt
, y los negativos están en un directorio separado,main_dir/neg/*.txt
.
¿Cómo puedo usar elCategorizedPlaintextCorpusReader
¿para cargar y etiquetar todos los archivos positivos en el directorio pos, y hacer lo mismo para los negativos?
NB: La configuración es absolutamente la misma que laMovie_reviews
corpus~nltk_data\corpora\movie_reviews
).