¿Cómo abordo esta tarea de clasificación de entidad con nombre?
Estoy haciendo una pregunta relacionadaaqu pero esta pregunta es más general. Tomé grandes corpus y anoté algunas palabras con sus entidades nombradas. En mi caso, son específicos del dominio y los llamo: Entidad, Acción, Incidente. Quiero usarlos como semilla para extraer más entidades con nombre. Por ejemplo, la siguiente es una oración:
Cuando el robot tuvo una falla técnica, el objeto fue arrojado pero luego fue atrapado por otro robot.
está etiquetado como:
Cuando el (robot) / Entidad tenía un (falla técnica) / Incidente, el (objeto) / Entidad fue (arrojado) / Acción pero fue más tarde (atrapado) / Acción por (otro robot) / Entidad.
Dados ejemplos como este, ¿hay alguna forma de entrenar a un clasificador para reconocer nuevas entidades con nombre? Por ejemplo, dada una oración como esta:
El nanobot tenía un error y se estrelló contra la pared.
debería etiquetarse de alguna manera como esta:
Los (nanobot) / Entidad tenía un (error) / Incidente y así (bloqueado) / Acción en el (pared) / Entidad.
Por supuesto, soy consciente de que el 100% de precisión no es posible, pero me interesaría conocer cualquier enfoque formal para hacerlo. ¿Alguna sugerencia