Como treinar a ferramenta Stanford NLP Sentiment Analysis

Hell todos! Estou usando o pacote Stanford Core NLP e meu objetivo é realizar uma análise de sentimentos em uma transmissão ao vivo de tweet

Usar a ferramenta de análise de sentimentos como está retorna uma análise muito ruim da 'atitude' do texto. Muitos positivos são rotulados neutros, muitos negativos classificados como positivos. Adquiri mais de um milhão de tweets em um arquivo de texto, mas não faço ideia de comotre a ferramenta e crie meu próprio model

Link para a página Stanford Sentiment Analysis

"Os modelos podem ser treinados novamente usando o seguinte comando, usando o conjunto de dados no formato PTB:"

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

Sample from dev.txt (Os 4 primeiros representam polaridade entre 5 ... 4/5 positivos)

(4 (4 (2 A) (4 (3 (3 warm) (2 ,)) (3 funny))) (3 (2 ,) (3 (4 (4 engaging) (2 film)) (2 .))))

Amostra de test.txt

(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) (2 (2 like) (3 (2 to) (3 (3 (2 go) (2 (2 to) (2 (2 the) (2 movies)))) (3 (2 to) (3 (2 have) (4 fun))))))))) (2 (2 ,) (2 (2 Wasabi) (3 (3 (2 is) (2 (2 a) (2 (3 good) (2 (2 place) (2 (2 to) (2 start)))))) (2 .)))))

Amostra do train.txt

(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))

Tenho duas perguntas daqui para frente.

Qual é o significado e a diferença entre cada arquivo? Train.txt / Dev.txt / Test.txt?

Como treinarei meu próprio modelo com um arquivo de texto bruto e sem análise, cheio de tweets?

Sou muito novo na PNL, então, se estiver faltando alguma informação necessária ou alguma coisa, por favor, critique! Obrigado

questionAnswers(3)

yourAnswerToTheQuestion