Erstellen eines benutzerdefinierten kategorisierten Korpus in NLTK und Python
Ich habe ein Problem mit regulären Ausdrücken undCategorizedPlaintextCorpusReader
in Python.
Ich möchte einen benutzerdefinierten kategorisierten Korpus erstellen und einen Naive-Bayes-Klassifikator darauf trainieren. Mein Problem ist das folgende: Ich möchte zwei Kategorien haben, "pos" und "neg". Die positiven Dateien befinden sich alle in einem Verzeichnis.main_dir/pos/*.txt
, und die negativen befinden sich in einem separaten Verzeichnis,main_dir/neg/*.txt
.
Wie kann ich das benutzen?CategorizedPlaintextCorpusReader
alle positiven dateien in das pos verzeichnis laden und beschriften und dasselbe für die negativen tun?
NB: Das Setup ist absolut das gleiche wie dasMovie_reviews
Korpus (~nltk_data\corpora\movie_reviews
).