Как мне подойти к этой задаче классификации именованных объектов?
Я задаю связанный вопросВот но этот вопрос носит более общий характер. Я взял большую корпорацию и прокомментировал некоторые слова их именованными сущностями. В моем случае они зависят от домена, и я называю их: сущность, действие, инцидент. Я хочу использовать их как семя для извлечения большего количества именованных сущностей. Например, следующее одно предложение:
Когда у робота был технический сбой, объект был брошен, но позже был пойман другим роботом.
помечен как:
Когда(Робот) / Объект был(технический глюк) / Инцидент,(Объект) / Объект был(Выброшен) / Действие но было позже(Поймано) / Действие по(другой робот) / Entity.
Учитывая приведенные примеры, могу ли я научить классификатор распознавать новые именованные объекты? Например, с учетом такого предложения:
У нанобота была ошибка, и он врезался в стену.
должен быть помечен примерно так:
(Нанобота) / Объект был(Ошибка) / инциденты и так(Разбился) / Действие в(Стенки) / Объект.
Конечно, я знаю, что 100% -ная точность невозможна, но мне было бы интересно узнать какие-либо формальные подходы для этого. Какие-либо предложения?