Entrenamiento acústico con SAPI 5.3 Speech API

Usando la API de voz SAPI 5.3 de Microsoft en Vista, ¿cómo realiza programáticamente la capacitación del modelo acústico de un RecoProfile? Más concretamente, si tiene un archivo de texto y un archivo de audio de un usuario que habla ese texto, ¿qué secuencia de llamadas SAPI haría para entrenar el perfil del usuario utilizando ese texto y audio?

Actualizar:

Más información sobre este problema que todavía no he resuelto: llama a ISpRecognizer2.SetTrainingState (TRUE, TRUE) al "principio" e ISpRecognizer2.SetTrainingState (FALSE, TRUE) al "final". Pero aún no está claro cuándo esas acciones tienen que suceder en relación con otras acciones.

Por ejemplo, debe realizar varias llamadas para configurar una gramática con el texto que coincida con su audio, y otras llamadas para conectar el audio y otras llamadas a varios objetos para decir "ya está listo". Pero, ¿cuáles son las interdependencias? ¿Qué tiene que pasar antes que otra cosa? Y si está utilizando un archivo de audio en lugar del micrófono del sistema para la entrada, ¿eso hace que la sincronización relativa sea menos tolerante, porque el reconocedor no se quedará allí escuchando hasta que el orador lo haga bien?

Respuestas a la pregunta(1)

Su respuesta a la pregunta