Объекты в моей газете не распознаны
Я хотел бы создать собственную модель NER. Вот что я сделал:
ОБУЧЕНИЕ ДАННЫМ (Stanford-ner.tsv):
Hello O
! O
My O
name O
is O
Damiano PERSON
. O
СВОЙСТВА (Stanford-ner.prop):
trainFile = stanford-ner.tsv
serializeTo = ner-model.ser.gz
map = word=0,answer=1
maxLeft=1
useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useDisjunctive=true
useSequences=true
usePrevSequences=true
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useGazettes=true
gazette=gazzetta.txt
cleanGazette=true
Gazzette gazzetta.txt):
PERSON John
PERSON Andrea
Я строю модель через командную строку:
java -classpath "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -prop stanford-ner.prop
И проверить с:
java -classpath "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -textFile test.txt
Я сделал два теста со следующими текстами:
>>> ТЕСТ 1 <<<
Текст: Привет! Меня зовут Дамиано, и это поддельный текст для проверки.
ВЫХОДЗдравствуйте / O! / O My / O name / O is / O Damiano / PERSON и / O this / O is / O a / O fake / O text / O to / O test / O ./O
>>> ТЕСТ 2 <<<
Текст: Привет! Меня зовут Джон, и это поддельный текст для проверки.
ВЫХОДЗдравствуйте / O! / O My / O name / O is / O John / O и / O this / O is / O a / O fake / O text / O to / O test / O ./O
Как видите, найдена только сущность "Дамиано". Эта сущность есть в моих тренировочных данных, но «Джон» (второй тест) находится внутри gazzette. Так что вопрос в том.
Почему сущность Джона не распознана?
Огромное спасибо заранее.