Preguntas sobre la creación de modelos de capacitación de Stann CoreNLP

Question

Nov 14, 2015, 09:08 PM

stanford-nlp training-data scoring sentiment-analysis

Preguntas sobre la creación de modelos de capacitación de Stann CoreNLP

He estado trabajando con el CoreNLP de Stanford para realizar análisis de opinión sobre algunos datos que tengo y estoy trabajando en la creación de un modelo de capacitación. Sé que podemos crear un modelo de entrenamiento con el siguiente comando:

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

Sé lo que pasa en el archivo train.txt. Anotas oraciones y las pones en train.txt, algo así:(0 (2 Today) (0 (0 (2 is) (0 (2 a) (0 (0 bad) (2 day)))) (..)))

Pero no entiendo lo que pasa en el archivo dev.txt. Leoesta pregunta varias veces para tratar de entender qué hay en dev.txt, pero aún no me queda claro. Además, calificar estas oraciones manualmente se ha convertido en un dolor, ¿hay alguna herramienta disponible que lo haga más fácil? Me preocupa haber estado usando el número incorrecto de paréntesis o algún otro error estúpido como ese.

Además, ¿alguna sugerencia sobre la duración de mi archivo train.txt? Estoy pensando en anotar 1000 oraciones. ¿Es ese número demasiado pequeño, demasiado grande?

Toda tu ayuda es apreciada :)