Python NLTK Lematização da palavra 'mais' com wordnet

Question

Apr 10, 2014, 11:23 PM

Python NLTK Lematização da palavra 'mais' com wordnet

Estou trabalhando em um lematizador usando python, NLTK e o WordNetLemmatizer. Aqui está um texto aleatório que mostra o que eu estava esperando

from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
lem = WordNetLemmatizer()
lem.lemmatize('worse', pos=wordnet.ADJ) // here, we are specifying that 'worse' is an adjective

Resultado:'bad'

lem.lemmatize('worse', pos=wordnet.ADV) // here, we are specifying that 'worse' is an adverb

Resultado:'worse'

Bem, tudo aqui está bem. O comportamento é o mesmo com outros adjetivos, como'better' (para uma forma irregular) ou'older' (observe que o mesmo teste com'elder' nunca sairá'old', mas acho que o wordnet não é uma lista exaustiva de toda a palavra em inglês existente)

Minha pergunta vem ao tentar com a palavra'furter':

lem.lemmatize('further', pos=wordnet.ADJ) // as an adjective

Resultado:'further'

lem.lemmatize('further', pos=wordnet.ADV) // as an adverb

Resultado:'far'

Esse é exatamente o comportamento oposto daquele para o'worse' palavra!

Alguém pode me explicar o porquê? É um bug proveniente dos dados de sincronização do wordnet ou vem do meu mal-entendido da gramática inglesa?

Com licença, se a pergunta já tiver sido respondida, pesquisei no google e no SO, mas ao especificar a palavra-chave "mais", posso encontrar qualquer coisa relacionada, exceto bagunça, devido à popularidade desta palavra ...

Agradecemos antecipadamente, Romain G.