Извлечение имени - CV / Резюме - Stanford NER / OpenNLP

В настоящее время я участвую в учебном проекте по извлечению имен людей из их резюме / резюме.

В настоящее время я работаю со Stanford-NER и OpenNLP, которые оба работают с определенной долей успеха, стремясь бороться с «незападными» именами типов (без обид, предназначенных ни для кого).

Мой вопрос - учитывая общее отсутствие структуры предложения или контекста в отношении имени человека в резюме / резюме, могу ли я добиться какого-либо значительного улучшения в идентификации имени, создав нечто похожее на корпус CV?

Мои первоначальные мысли заключались в том, что я, вероятно, добился бы большего успеха, разбив предложение, удалив очевидный текст и применив немного логики, чтобы сделать лучшее предположение об имени человека.

Я могу видеть, как обучение будет работать, если имя появится в структурированном предложении, однако, как отдельная сущность без контекста (например, Акбар Аго), я подозреваю, что оно будет бороться независимо от обучения.

Есть ли уровень ИИ, который, если бы при наличии достаточного количества данных начал бы формировать шаблон для поиска имени, или я должен просто пойти на применение уровня извлечения строк на основе логики?

Буду признателен за мысли, мнения и предложения людей.

Примечание: я использовал PHP с Appache Tika для первоначального извлечения текста из Doc / Pdf и экспериментирую со Stanford и OpenNLP через PHP / Commandline.

Крис

Ответы на вопрос(2)

Ваш ответ на вопрос