Perguntas sobre a criação de modelos de treinamento stanford CoreNLP

Question

Nov 14, 2015, 09:08 PM

stanford-nlp training-data sentiment-analysis scoring

Perguntas sobre a criação de modelos de treinamento stanford CoreNLP

Estou trabalhando com o coreNLP de Stanford para realizar análises de sentimentos em alguns dados que tenho e estou trabalhando na criação de um modelo de treinamento. Eu sei que podemos criar um modelo de treinamento com o seguinte comando:

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

Eu sei o que se passa no arquivo train.txt. Você pontua sentenças e as coloca em train.txt, algo como isto:(0 (2 Today) (0 (0 (2 is) (0 (2 a) (0 (0 bad) (2 day)))) (..)))

Mas eu não entendo o que se passa no arquivo dev.txt. Eu li atravésesta questione várias vezes para tentar entender o que existe no dev.txt, mas ainda não está claro para mim. Além disso, pontuar essas frases manualmente se tornou uma dor, existe uma ferramenta disponível que facilita isso? Estou preocupado que esteja usando o número errado de parênteses ou algum outro erro estúpido como esse.

Além disso, alguma sugestão sobre quanto tempo meu arquivo train.txt deve ser? Estou pensando em marcar 1000 frases. Esse número é muito pequeno, muito grande?

Toda a sua ajuda é apreciada :)