Создание пользовательского классифицированного корпуса в NLTK и Python

У меня возникла небольшая проблема, связанная с регулярными выражениями иCategorizedPlaintextCorpusReader в Python.

Я хочу создать собственный классифицированный корпус и обучить его наивному-байесовскому классификатору. Моя проблема заключается в следующем: я хочу иметь две категории, "pos" и "нег". Положительные файлы находятся в одном каталоге,main_dir/pos/*.txtи отрицательные находятся в отдельном каталоге,main_dir/neg/*.txt.

Как я могу использоватьCategorizedPlaintextCorpusReader загрузить и пометить все положительные файлы в каталоге pos, и сделать то же самое для отрицательных?

NB: установка абсолютно такая же, какMovie_reviews корпус (~nltk_data\corpora\movie_reviews).

Ответы на вопрос(1)

Ваш ответ на вопрос