Treinamento acústico usando a API de fala SAPI 5.3

Usando a API de fala SAPI 5.3 da Microsoft no Vista, como você faz programaticamente o treinamento de modelos acústicos de um RecoProfile? Mais concretamente, se você tiver um arquivo de texto e um arquivo de áudio de um usuário falando esse texto, que sequência de chamadas SAPI você faria para treinar o perfil do usuário usando esse texto e áudio?

Atualizar:

Mais informações sobre esse problema que ainda não solucionei: Você chama ISpRecognizer2.SetTrainingState (TRUE, TRUE) no "início" e ISpRecognizer2.SetTrainingState (FALSE, TRUE) no "final". Mas ainda não está claro quando essas ações precisam ocorrer em relação a outras ações.

Por exemplo, você precisa fazer várias chamadas para configurar uma gramática com o texto que corresponde ao seu áudio, e outras chamadas para conectar o áudio e outras chamadas a vários objetos para dizer "você está pronto para ir agora". Mas quais são as interdependências - o que tem que acontecer antes do que mais? E se você estiver usando um arquivo de áudio em vez do microfone do sistema para entrada, isso faz com que o tempo relativo seja menos tolerante, porque o reconhecedor não continuará sentado ali ouvindo até o alto-falante acertar?

questionAnswers(1)

yourAnswerToTheQuestion