лемматизация в Wordnet и теги pos в python
Я хотел использовать лемматизатор wordnet в python, и я узнал, что по умолчанию тэг pos равен NOUN и что он не выводит правильную лемму для глагола, если тэг pos явно не указан как VERB.
У меня вопрос, какой метод лучше всего подходит для точной лемматизации?
Я сделал pos-теги, используяnltk.pos_tag
и я теряюсь в интеграции pos-тегов дерева банка в Wordnet-совместимые pos-теги. Пожалуйста помоги
from nltk.stem.wordnet import WordNetLemmatizer
lmtzr = WordNetLemmatizer()
tagged = nltk.pos_tag(tokens)
Я получаю выходные теги в NN, JJ, VB, RB. Как мне поменять их на тэги, совместимые с Wordnet?
Также я должен тренироватьсяnltk.pos_tag()
с помеченным корпусом или я могу использовать его непосредственно для оценки своих данных?