НЛТК назвал сущность признанным в голландском
Я пытаюсь извлечь именованные объекты из голландского текста. я использовалNLTK-тренер обучить тэггер и чанкер на голландском корпусе conll2002. Тем не менее, метод синтаксического анализа от блока не обнаруживает никаких именованных объектов. Вот мой код:
str = 'Christiane heeft een lam.'
tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')
str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags
str_chunks = chunker.parse(str_tags)
print str_chunks
И вывод этой программы:
[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj ./Punc)
Я ожидал, что Кристиан будет обнаружена как именованная сущность. Любая помощь?