Lematización de wordnet y etiquetado pos en python
Quería usar wordnet lemmatizer en python y he aprendido que la etiqueta pos predeterminada es NOUN y que no genera el lema correcto para un verbo, a menos que la etiqueta pos esté explícitamente especificada como VERBO.
Mi pregunta es ¿cuál es la mejor toma para realizar la lematización anterior con precisión?
Hice el etiquetado pos utilizandonltk.pos_tag
y estoy perdido en la integración de las etiquetas pos del banco de árboles a las etiquetas pos compatibles con wordnet. Por favor ayuda
from nltk.stem.wordnet import WordNetLemmatizer
lmtzr = WordNetLemmatizer()
tagged = nltk.pos_tag(tokens)
Obtengo las etiquetas de salida en NN, JJ, VB, RB. ¿Cómo puedo cambiar estas etiquetas compatibles con wordnet?
También tengo que entrenarnltk.pos_tag()
con un corpus etiquetado o ¿puedo usarlo directamente en mis datos para evaluar?