Создание пользовательского классифицированного корпуса в NLTK и Python
У меня возникла небольшая проблема, связанная с регулярными выражениями иCategorizedPlaintextCorpusReader
в Python.
Я хочу создать собственный классифицированный корпус и обучить его наивному-байесовскому классификатору. Моя проблема заключается в следующем: я хочу иметь две категории, "pos" и "нег". Положительные файлы находятся в одном каталоге,main_dir/pos/*.txt
и отрицательные находятся в отдельном каталоге,main_dir/neg/*.txt
.
Как я могу использоватьCategorizedPlaintextCorpusReader
загрузить и пометить все положительные файлы в каталоге pos, и сделать то же самое для отрицательных?
NB: установка абсолютно такая же, какMovie_reviews
корпус (~nltk_data\corpora\movie_reviews
).