Tworzenie niestandardowego skategoryzowanego korpusu w NLTK i Pythonie

Question

May 05, 2012, 06:44 PM

Tworzenie niestandardowego skategoryzowanego korpusu w NLTK i Pythonie

Mam pewien problem związany z wyrażeniami regularnymi iCategorizedPlaintextCorpusReader w Pythonie.

Chcę utworzyć niestandardowy skategoryzowany korpus i szkolić na nim klasyfikator Naive-Bayesa. Mój problem jest następujący: chcę mieć dwie kategorie: „pos” i „neg”. Wszystkie pliki pozytywne znajdują się w jednym katalogu,main_dir/pos/*.txt, a te negatywne znajdują się w oddzielnym katalogu,main_dir/neg/*.txt.

Jak mogę korzystać zCategorizedPlaintextCorpusReader załadować i oznaczyć wszystkie pliki pozytywne w katalogu pos, i zrobić to samo dla negatywnych?

Uwaga: Konfiguracja jest absolutnie taka sama jakMovie_reviews korpus (~nltk_data\corpora\movie_reviews).