Mowa do Phoneme w .Net

Problem polega na tym, że chcę uzyskać fonemy mowy audio w języku C #. powiedz, że masz plik audio „x.wav”, który mówi „cześć drogi Shamim”. Chcę wyodrębnić wszystkie fonemy mowy i ich względne czasy. coś takiego jak na zdjęciu poniżej:

użyłemSystem.Speech biblioteka (obierecognition isynthesis przestrzenie nazw), ale nie znalazłem tego, czego chciałem. Teraz się nie myl! Nie chcę fonemów zdania „cześć drogi Shamim”, chcę wyodrębnić fonemy z nieznanego wejścia audio, które mówi i zdanie angielskie. próbowałemSystem.Speech.Recognition ale próbuje wyodrębnić słowa z pliku audio, a nie fonemów! i jak można się domyślić, słowa są w 30% błędne! ;)

questionAnswers(4)

yourAnswerToTheQuestion