Акустическое обучение с использованием SAPI 5.3 Speech API
Используя программный интерфейс Microsoft SAPI Speech API для Vista, как вы программируете акустическую модель обучения RecoProfile? Более конкретно, если у вас есть текстовый файл и аудиофайл пользователя, говорящего на этом тексте, какую последовательность вызовов SAPI вы бы использовали для обучения профиля пользователя с использованием этого текста и аудио?
Обновить:Больше информации об этой проблеме я до сих пор не решил: Вы вызываете ISpRecognizer2.SetTrainingState (TRUE, TRUE) в «начале» и ISpRecognizer2.SetTrainingState (FALSE, TRUE) в «конце». Но до сих пор неясно, когда эти действия должны произойти по сравнению с другими действиями.
Например, вам нужно совершать различные вызовы, чтобы установить грамматику с текстом, который соответствует вашему аудио, и другие вызовы, чтобы подключить аудио, и другие вызовы к различным объектам, чтобы сказать: «Вы готовы идти сейчас». Но каковы взаимозависимости - что должно произойти до чего еще? И если вы используете аудиофайл вместо системного микрофона для ввода, делает ли это относительную синхронизацию менее прощающей, потому что распознаватель не будет продолжать сидеть, слушая, пока динамик не поймет правильно?