Jak rozpoznać frazę z pliku głosowego
Jak sprawić, by silnik z powodzeniem rozpoznał frazę z pliku głosowego (wav / mp3 / etc ..)?
Na przykład, jeśli będę miał plik głosowy i napisany tekst kontekstu tego samego pliku, aby rozpoznać zapisane słowa w pliku głosowym.
Starałem się grać z SpeechRecognitionEngine, ale do tej pory bez powodzenia.
Będę wdzięczny za pomysły, ponieważ to mój pierwszy kontakt z technikami rozpoznawania mowy.
Widziałem przykłady mowy na tekst za pomocą słowników, ale nie jestem pewien, jak może to być przydatne tutaj. Myślałem o tym, aby przekonwertować cały plik głosowy na tekst, a następnie po prostu szukać konkretnego wyrażenia w tym tekście, ale nie sądzę, aby był to właściwy sposób. Nie ma sensu konwertować na przykład 5-godzinnego głosu na tekst .... lub może użyć określonej frazy jako „słownika” i poszukać tego elementu w pliku głosowym.