NLTK WordNet Lemmatizer: ¿No debería lematizar todas las inflexiones de una palabra?

Question

Aug 27, 2014, 08:10 PM

NLTK WordNet Lemmatizer: ¿No debería lematizar todas las inflexiones de una palabra?

Estoy usando el lematizador NLTK WordNet para un proyecto de etiquetado de parte del discurso modificando primero cada palabra en el corpus de entrenamiento a su raíz (modificación en el lugar), y luego entrenando solo en el nuevo corpus. Sin embargo, descubrí que el lemmatizer no funciona como esperaba.

Por ejemplo, la palabraloves está lematizado alove que es correcto, pero la palabraloving permaneceloving incluso después de la lematización. aquíloving es como en la frase "Me encanta".

No eslove el tallo de la palabra flexionadaloving? Del mismo modo, muchas otras formas 'ing' permanecen como están después de la lematización. ¿Es este el comportamiento correcto?

¿Cuáles son algunos otros lematizadores que son precisos? (no es necesario que esté en NLTK) ¿Existen analizadores de morfología o lematizadores que también tengan en cuenta la etiqueta Parte del discurso de una palabra al decidir la raíz de la palabra? Por ejemplo, la palabrakilling debería tenerkill como el tallo sikilling se usa como verbo, pero debería tenerkilling como el tallo si se usa como sustantivo (como enthe killing was done by xyz)