Akustiktraining mit SAPI 5.3 Speech API

Question

Nov 18, 2008, 08:12 PM

Akustiktraining mit SAPI 5.3 Speech API

Wie können Sie mit der Microsoft-Sprach-API SAPI 5.3 unter Vista programmgesteuert ein akustisches Modelltraining für ein RecoProfile durchführen? Genauer gesagt: Wenn Sie eine Textdatei und eine Audiodatei eines Benutzers haben, der diesen Text spricht, in welcher Abfolge von SAPI-Aufrufen würden Sie das Benutzerprofil mit diesem Text und Audio trainieren?

Aktualisieren

Weitere Informationen zu diesem Problem habe ich noch nicht gelöst: Sie rufen ISpRecognizer2.SetTrainingState (TRUE, TRUE) am "Anfang" und ISpRecognizer2.SetTrainingState (FALSE, TRUE) am "Ende" auf. Es ist jedoch immer noch unklar, wann diese Aktionen im Verhältnis zu anderen Aktionen ausgeführt werden müssen.

Sie müssen beispielsweise verschiedene Anrufe tätigen, um eine Grammatik mit dem zu Ihrem Audio passenden Text einzurichten, und andere Anrufe, um das Audio anzuschließen, und andere Anrufe bei verschiedenen Objekten, um zu sagen, dass Sie jetzt loslegen können. Aber was sind die gegenseitigen Abhängigkeiten - was muss vor was anderem passieren? Und wenn Sie eine Audiodatei anstelle des Systemmikrofons für die Eingabe verwenden, wird dadurch das relative Timing weniger nachsichtig, weil der Erkenner nicht so lange da sitzt und zuhört, bis der Lautsprecher es richtig versteht?