NLTK WordNet Lemmatizer: ¿No debería lematizar todas las inflexiones de una palabra?
Estoy usando el lematizador NLTK WordNet para un proyecto de etiquetado de parte del discurso modificando primero cada palabra en el corpus de entrenamiento a su raíz (modificación en el lugar), y luego entrenando solo en el nuevo corpus. Sin embargo, descubrí que el lemmatizer no funciona como esperaba.
Por ejemplo, la palabraloves
está lematizado alove
que es correcto, pero la palabraloving
permaneceloving
incluso después de la lematización. aquíloving
es como en la frase "Me encanta".
No eslove
el tallo de la palabra flexionadaloving
? Del mismo modo, muchas otras formas 'ing' permanecen como están después de la lematización. ¿Es este el comportamiento correcto?
¿Cuáles son algunos otros lematizadores que son precisos? (no es necesario que esté en NLTK) ¿Existen analizadores de morfología o lematizadores que también tengan en cuenta la etiqueta Parte del discurso de una palabra al decidir la raíz de la palabra? Por ejemplo, la palabrakilling
debería tenerkill
como el tallo sikilling
se usa como verbo, pero debería tenerkilling
como el tallo si se usa como sustantivo (como enthe killing was done by xyz
)