Erstellen eines benutzerdefinierten kategorisierten Korpus in NLTK und Python

Ich habe ein Problem mit regulären Ausdrücken undCategorizedPlaintextCorpusReader in Python.

Ich möchte einen benutzerdefinierten kategorisierten Korpus erstellen und einen Naive-Bayes-Klassifikator darauf trainieren. Mein Problem ist das folgende: Ich möchte zwei Kategorien haben, "pos" und "neg". Die positiven Dateien befinden sich alle in einem Verzeichnis.main_dir/pos/*.txt, und die negativen befinden sich in einem separaten Verzeichnis,main_dir/neg/*.txt.

Wie kann ich das benutzen?CategorizedPlaintextCorpusReader alle positiven dateien in das pos verzeichnis laden und beschriften und dasselbe für die negativen tun?

NB: Das Setup ist absolut das gleiche wie dasMovie_reviews Korpus (~nltk_data\corpora\movie_reviews).

Antworten auf die Frage(1)

Ihre Antwort auf die Frage