Extração de nome - CV / Currículo - Stanford NER / OpenNLP

Question

Jun 05, 2015, 12:35 PM

stanford-nlp opennlp nlp named-entity-recognition named-entity-extraction

Extração de nome - CV / Currículo - Stanford NER / OpenNLP

Atualmente, estou em um projeto de aprendizagem para extrair o nome de um indivíduo de seu currículo / currículo.

Atualmente, estou trabalhando com o Stanford-NER e o OpenNLP, ambos com um certo sucesso desde o início, tendendo a lutar com nomes do tipo "não ocidentais" (sem ofensas para ninguém).

Minha pergunta é - dada a falta geral de estrutura ou contexto de sentença em relação ao nome de um indivíduo em um CV / Currículo, é provável que eu obtenha alguma melhoria significativa na identificação de nomes criando algo semelhante a um corpus CV?

Meu pensamento inicial é que eu provavelmente teria mais sucesso dividindo frases, removendo texto óbvio e aplicando um pouco de lógica para adivinhar o nome do indivíduo.

Eu posso ver como o treinamento funcionaria se o nome a aparecer em uma frase estruturada, no entanto, como uma entidade autônoma sem contexto (Akbar Agho, por exemplo), suspeito que ele terá dificuldades, independentemente do treinamento.

Existe um nível de IA que, se dados suficientes começassem a formular um padrão para encontrar um nome ou eu deveria apenas aplicar um nível de extração de string baseada em lógica?

Eu apreciaria os pensamentos, opiniões e sugestões das pessoas.

Nota lateral: Eu tenho usado o PHP com Appache Tika para fazer a extração de texto inicial do Doc / Pdf e estou experimentando o Stanford e o OpenNLP via PHP / Commandline.

Chris