Jak rozpoznać frazę z pliku głosowego

Jak sprawić, by silnik z powodzeniem rozpoznał frazę z pliku głosowego (wav / mp3 / etc ..)?

Na przykład, jeśli będę miał plik głosowy i napisany tekst kontekstu tego samego pliku, aby rozpoznać zapisane słowa w pliku głosowym.

Starałem się grać z SpeechRecognitionEngine, ale do tej pory bez powodzenia.

Będę wdzięczny za pomysły, ponieważ to mój pierwszy kontakt z technikami rozpoznawania mowy.

Widziałem przykłady mowy na tekst za pomocą słowników, ale nie jestem pewien, jak może to być przydatne tutaj. Myślałem o tym, aby przekonwertować cały plik głosowy na tekst, a następnie po prostu szukać konkretnego wyrażenia w tym tekście, ale nie sądzę, aby był to właściwy sposób. Nie ma sensu konwertować na przykład 5-godzinnego głosu na tekst .... lub może użyć określonej frazy jako „słownika” i poszukać tego elementu w pliku głosowym.

questionAnswers(3)

yourAnswerToTheQuestion