Como faço para formar um vetor de recurso para um classificador direcionado ao Reconhecimento de Entidades Nomeada

Question

Nov 22, 2011, 12:01 AM

Como faço para formar um vetor de recurso para um classificador direcionado ao Reconhecimento de Entidades Nomeada

Tenho um conjunto de tags (diferente do Nome, Local, Objeto etc.) convencional. No meu caso, eles são específicos do domínio e eu os chamo: Entidade, Ação, Incidente. Eu quero usá-los como uma semente para extrair mais entidades nomeadas.

Me deparei com este artigo: "lassificadores de vetores de suporte eficientes para reconhecimento de entidades nomead "de Isozaki et al. Embora eu goste da idéia de usar as Máquinas de Vetor de Suporte para fazer o reconhecimento de entidades nomeadas, estou empolgado em como codificar o vetor de recurso. Para o trabalho deles, é o que eles dizem:

Por exemplo, as palavras em “Presidente Ge, orge Herbert Bush, disseram que Clinton é. . . ”São classificados da seguinte forma:“ Presidente ”= OUTRO,“ George ”= INÍCIO DA PESSOA,“ Herbert ”= MÉDIO DA PESSOA,“ Bush ”= FIM DA PESSOA,“ dito ”= OUTRO,“ Clinton ”= PESSOA ÚNICA, "É" = OUTRO. Dessa maneira, a primeira palavra do nome de uma pessoa é rotulada como PESSOA-INÍCIO. A última palavra é rotulada como PESSOA-FINAL. Outras palavras no nome são PERSON-MIDDLE. Se o nome de uma pessoa for expresso por uma única palavra, será rotulado como PESSOA ÚNICA. Se uma palavra não pertencer a nenhuma entidade nomeada, ela será rotulada como OTHER. Como o IREX define oito classes NE, as palavras são classificadas em 33 categoria

ada amostra é representada por 15 recursos, pois cada palavra possui três recursos (tag de parte do discurso, tipo de caractere e a própria palavra), e duas palavras anteriores e duas seguintes também são usadas para dependência de contexto. Embora recursos infreqüentes sejam geralmente removidos para evitar excesso de ajustes, usamos todos os recursos porque os SVMs são robustos. Cada amostra é representada por um vetor binário longo, isto é, uma sequência de 0 (falso) e 1 (verdadeiro). Por exemplo, "Bush" no exemplo acima é representado por um vetor x = x [1] ... x [D] descrito abaixo. Apenas 15 elementos são 1.

x[1] = 0 // Current word is not ‘Alice’ 
x[2] = 1 // Current word is ‘Bush’ 
x[3] = 0 // Current word is not ‘Charlie’

x[15029] = 1 // Current POS is a proper noun 
x[15030] = 0 // Current POS is not a verb

x[39181] = 0 // Previous word is not ‘Henry’ 
x[39182] = 1 // Previous word is ‘Herbert

Eu realmente não entendo como o vetor binário aqui está sendo construído. Sei que estou perdendo um ponto sutil, mas alguém pode me ajudar a entender isso?