O que o NER modela para encontrar nomes de pessoas em um currículo / currículo?

Question

Dec 29, 2015, 12:54 AM

stanford-nlp named-entity-recognition nlp

O que o NER modela para encontrar nomes de pessoas em um currículo / currículo?

Eu apenas comecei com o Stanford CoreNLP, gostaria de criar um modelo NER personalizado para encontrarpessoas.

Infelizmente, não encontrei um bom modelo ner para italiano. Preciso encontrar essas entidades em um documento de currículo / currículo.

O problema aqui é que documentos como esses podem ter uma estrutura diferente, por exemplo, eu posso ter:

CASO 1

- Name: John

- Surname: Travolta

- Last name: Travolta

- Full name: John Travolta

(so many labels that can represent the entity of the person i need to extract)

CASO 2

My name is John Travolta and I was born ...

Basicamente, posso ter dados estruturados (com rótulos diferentes) ou um contexto em que devo encontrar essas entidades.

Qual é a melhor abordagem para esse tipo de documento? Um modelo maxent pode funcionar neste caso?

EDIT @ vihari-piratla

No momento, adotei a estratégia para encontrar um padrão que tenha algo à esquerda e à direita, seguindo esse método, tenho 80/85% para encontrar a entidade.

Exemplo:

Name: John
Birthdate: 2000-01-01

Isso significa que eu tenho "Nome:" à esquerda do padrão e uma\ n à direita (até encontrar o\ n) Eu posso criar uma lista muito longa de padrões como esses. Pensei em padrões porque não preciso de nomes dentro do contexto "outro".

Por exemplo, se o usuário escreve outros nomes dentro de umexperiência de trabalho Eu não preciso deles. Porque eu estou procurando o nome pessoal, não outros. Com esse método, posso reduzir os falsos positivos, porque examinarei padrões específicos, não "nomes gerais".

Um problema com esse método é que eu tenho uma grande lista de padrões (1 padrão = 1 regex); portanto, não é tão dimensionável se adicionar outros.

Se eu puder treinar um modelo NER com todos esses padrões, será incrível, mas devo usar toneladas de documentos para treiná-lo bem.