Python NLTK Lematização da palavra 'mais' com wordnet
Estou trabalhando em um lematizador usando python, NLTK e o WordNetLemmatizer. Aqui está um texto aleatório que mostra o que eu estava esperando
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
lem = WordNetLemmatizer()
lem.lemmatize('worse', pos=wordnet.ADJ) // here, we are specifying that 'worse' is an adjective
Resultado:'bad'
lem.lemmatize('worse', pos=wordnet.ADV) // here, we are specifying that 'worse' is an adverb
Resultado:'worse'
Bem, tudo aqui está bem. O comportamento é o mesmo com outros adjetivos, como'better'
(para uma forma irregular) ou'older'
(observe que o mesmo teste com'elder'
nunca sairá'old'
, mas acho que o wordnet não é uma lista exaustiva de toda a palavra em inglês existente)
Minha pergunta vem ao tentar com a palavra'furter'
:
lem.lemmatize('further', pos=wordnet.ADJ) // as an adjective
Resultado:'further'
lem.lemmatize('further', pos=wordnet.ADV) // as an adverb
Resultado:'far'
Esse é exatamente o comportamento oposto daquele para o'worse'
palavra!
Alguém pode me explicar o porquê? É um bug proveniente dos dados de sincronização do wordnet ou vem do meu mal-entendido da gramática inglesa?
Com licença, se a pergunta já tiver sido respondida, pesquisei no google e no SO, mas ao especificar a palavra-chave "mais", posso encontrar qualquer coisa relacionada, exceto bagunça, devido à popularidade desta palavra ...
Agradecemos antecipadamente, Romain G.