Python NLTK Lematización de la palabra 'más allá' con wordnet
Estoy trabajando en un lemmatizer usando python, NLTK y WordNetLemmatizer. Aquí hay un texto aleatorio que muestra lo que esperaba
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
lem = WordNetLemmatizer()
lem.lemmatize('worse', pos=wordnet.ADJ) // here, we are specifying that 'worse' is an adjective
Salida:'bad'
lem.lemmatize('worse', pos=wordnet.ADV) // here, we are specifying that 'worse' is an adverb
Salida:'worse'
Bueno, todo aquí está bien. El comportamiento es el mismo con otros adjetivos como'better'
(para una forma irregular) o'older'
(tenga en cuenta que la misma prueba con'elder'
nunca saldrá'old'
, pero supongo que wordnet no es una lista exhaustiva de todas las palabras en inglés existentes)
Mi pregunta viene cuando trato con la palabra'furter'
:
lem.lemmatize('further', pos=wordnet.ADJ) // as an adjective
Salida:'further'
lem.lemmatize('further', pos=wordnet.ADV) // as an adverb
Salida:'far'
Este es exactamente el comportamiento opuesto al de la'worse'
¡palabra!
¿Alguien puede explicarme por qué? ¿Es un error que proviene de los datos de synsets de Wordnet o proviene de mi malentendido de la gramática inglesa?
Disculpe si la pregunta ya está respondida, he buscado en Google y SO, pero al especificar la palabra clave "más allá", puedo encontrar cualquier cosa relacionada, pero desordenada, debido a la popularidad de esta palabra ...
Gracias de antemano, Romain G.