Tworzenie niestandardowego skategoryzowanego korpusu w NLTK i Pythonie
Mam pewien problem związany z wyrażeniami regularnymi iCategorizedPlaintextCorpusReader
w Pythonie.
Chcę utworzyć niestandardowy skategoryzowany korpus i szkolić na nim klasyfikator Naive-Bayesa. Mój problem jest następujący: chcę mieć dwie kategorie: „pos” i „neg”. Wszystkie pliki pozytywne znajdują się w jednym katalogu,main_dir/pos/*.txt
, a te negatywne znajdują się w oddzielnym katalogu,main_dir/neg/*.txt
.
Jak mogę korzystać zCategorizedPlaintextCorpusReader
załadować i oznaczyć wszystkie pliki pozytywne w katalogu pos, i zrobić to samo dla negatywnych?
Uwaga: Konfiguracja jest absolutnie taka sama jakMovie_reviews
korpus (~nltk_data\corpora\movie_reviews
).