So trainieren Sie das Stanford NLP Sentiment Analysis Tool

Hallo allerseits! Ich verwende das Stanford Core NLP-Paket und möchte eine Stimmungsanalyse mit einem Live-Stream von Tweets durchführen.

Verwenden Sie das Sentiment-Analyse-Tool, da es eine sehr schlechte Analyse der "Haltung" des Texts liefert. Viele Positive werden als neutral bezeichnet, viele Negative als positiv. Ich habe weit über eine Million Tweets in einer Textdatei gesammelt, aber ich habe keine Ahnung, wie manZu das Tool und erstellen Sie mein eigenes Modell.

Link to Stanford Sentiment Analysis page

"Modelle können mit dem folgenden Befehl unter Verwendung des PTB-Format-Datensatzes umgeschult werden:"

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

Sample from dev.txt (Die führende 4 repräsentiert die Polarität von 5 ... 4/5 positiv)

(4 (4 (2 A) (4 (3 (3 warm) (2 ,)) (3 funny))) (3 (2 ,) (3 (4 (4 engaging) (2 film)) (2 .))))

Sample from test.txt

(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) (2 (2 like) (3 (2 to) (3 (3 (2 go) (2 (2 to) (2 (2 the) (2 movies)))) (3 (2 to) (3 (2 have) (4 fun))))))))) (2 (2 ,) (2 (2 Wasabi) (3 (3 (2 is) (2 (2 a) (2 (3 good) (2 (2 place) (2 (2 to) (2 start)))))) (2 .)))))

Beispiel aus train.txt

(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))

ch habe noch zwei Frage

Was ist die Bedeutung und der Unterschied zwischen den einzelnen Dateien? Train.txt / Dev.txt / Test.txt?

Wie würde ich mein eigenes Modell mit einer rohen, nicht analysierten Textdatei voller Tweets trainieren?

Ich bin ein Neuling in NLP. Wenn mir also die erforderlichen Informationen fehlen oder etwas fehlt, bitte kritisieren! Vielen Dank

Antworten auf die Frage(3)

Ihre Antwort auf die Frage