Как обучить инструменту анализа настроений Стэнфордского НЛП

Ада всем! Я использую пакет Stanford Core NLP, и моя цель - провести анализ настроений в прямом эфире твитов.

При использовании инструмента анализа настроений «как есть» возвращается очень плохой анализ «отношения» текста. Многие позитивы помечаются как нейтральные, многие негативы оцениваются как позитивные. Я получил более миллиона твитов в текстовом файле, но я понятия не имею, как на самом делепоез инструмент и создай свою собственную модель.

Ссылка на страницу анализа настроений Стэнфорда

"Модели могут быть переобучены с помощью следующей команды с использованием набора данных формата PTB:"

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

Образец из dev.txt (ведущий 4 представляет полярность из 5 ... 4/5 положительных)

(4 (4 (2 A) (4 (3 (3 warm) (2 ,)) (3 funny))) (3 (2 ,) (3 (4 (4 engaging) (2 film)) (2 .))))

Образец из test.txt

(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) (2 (2 like) (3 (2 to) (3 (3 (2 go) (2 (2 to) (2 (2 the) (2 movies)))) (3 (2 to) (3 (2 have) (4 fun))))))))) (2 (2 ,) (2 (2 Wasabi) (3 (3 (2 is) (2 (2 a) (2 (3 good) (2 (2 place) (2 (2 to) (2 start)))))) (2 .)))))

Образец с train.txt

(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))

У меня два вопроса впереди.

Какова значимость и разница между каждым файлом? Train.txt / Dev.txt / Test.txt?

Как бы я обучил свою собственную модель необработанному, не разбираемому текстовому файлу, полному твитов?

Я очень новичок в НЛП, поэтому, если мне не хватает необходимой информации или чего-либо еще, пожалуйста, критикуйте! Спасибо

Ответы на вопрос(3)

Ваш ответ на вопрос