Python NLTK Лемматизация слова «дальше» с помощью wordnet
Я работаю над лемматизатором, используя python, NLTK и WordNetLemmatizer. Вот случайный текст, который выводит то, что я ожидал
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
lem = WordNetLemmatizer()
lem.lemmatize('worse', pos=wordnet.ADJ) // here, we are specifying that 'worse' is an adjective
Выход:'bad'
lem.lemmatize('worse', pos=wordnet.ADV) // here, we are specifying that 'worse' is an adverb
Выход:'worse'
Ну, все здесь хорошо. Поведение такое же, как и у других прилагательных, таких как'better'
(для неправильной формы) или'older'
(обратите внимание, что тот же тест с'elder'
никогда не будет выводить'old'
, но я думаю, что wordnet не является исчерпывающим списком всех существующих английских слов)
Мой вопрос возникает при попытке со словом'furter'
:
lem.lemmatize('further', pos=wordnet.ADJ) // as an adjective
Выход:'further'
lem.lemmatize('further', pos=wordnet.ADV) // as an adverb
Выход:'far'
Это совершенно противоположное поведение одного для'worse'
слово!
Кто-нибудь может объяснить мне, почему? Является ли это ошибкой, возникающей из-за данных по синтаксису wordnet, или из-за моего неправильного понимания грамматики английского языка?
Прошу прощения, если на вопрос уже дан ответ, я ищу в Google и SO, но при указании ключевого слова "далее" я могу найти что-нибудь связанное, кроме беспорядка, из-за популярности этого слова ...
Заранее спасибо, Ромен Г.