Como lidar com dois métodos de extração de entidade na PNL

Question

Mar 05, 2019, 12:36 PM

Como lidar com dois métodos de extração de entidade na PNL

Estou usando dois métodos diferentes de extração de entidade https: //rasa.com/docs/nlu/entities) ao criar meu modelo de PNL na estrutura RASA para criar um chatbot. O bot deve lidar com questões diferentes que têm entidades personalizadas, bem como algumas gerais, como localização ou organização. Então, eu uso os componentes ner_spacy e ner_crf para criar o modelo. Depois disso, construo um pequeno script auxiliar em python para avaliar o desempenho do modelo. Lá notei que o modelo luta para escolher a entidade corret

Por exemplo, para uma palavra 'X', ela escolheu a entidade predefinida 'ORG' da SpaCy, mas deve ser reconhecida como uma entidade personalizada que eu defini nos dados de treinament

Se eu apenas usar o extrator ner_crf, enfrentarei grandes problemas na identificação de entidades de localização como capitais. Também um dos meus maiores problemas são as entidades de resposta únic

Q: "Qual é o seu animal favorito?"

Um cachorr

Meu modelo não pode extrair 'entidade' essa única entidade para esta resposta única. Se eu responder a essa pergunta com duas palavras como 'The Dog', o modelo não terá problemas para extrair a entidade animal com o valor 'Dog'.

Então, minha pergunta é: é inteligente usar dois componentes diferentes para extrair entidades? Um para entidades personalizadas e outro para entidades predefinidas. Se eu usar dois métodos, qual é o mecanismo no modelo em que extrator é usado?

A propósito, atualmente estou apenas testando as coisas, então minhas amostras de treinamento não são tão grandes quanto deveriam (menos de 100 exemplos). O problema poderia ser resolvido se eu tiver muito mais exemplos de treinamento?