étodos simples de reconhecimento de fa

Sim, eu sei que o reconhecimento de fala é bastante complicado (como um eufemismo). O que estou procurando é um método para distinguir entretalve 20-30 frases. Uma capacidade de dividir palavras (fala discreta é adequada) seria boa, mas não é necessária. O software será dependente do usuário (ou seja, para uso por mim). Não estou procurando por software existente, mas por uma boa maneira de fazer isso sozinho. Examinei vários métodos existentes e parece que a divisão do som em fonemas, embora comum, é um pouco excessiva para as minhas necessidade

Por algum contexto, estou apenas procurando uma maneira de controlar alguns aspectos do meu computador com alguns comandos de voz simples. Estou ciente de que o Windows já possui um software de reconhecimento de fala, mas eu gostaria de fazer isso sozinho como um exercício de aprendizado. Os comandos seriam simples como "Open Google" ou "Mute". O que eu tinha em mente (não tenho certeza se é uma boa ideia) é que alguns comandos seriam compostos. Então "Mute" seria apenas "Mute". Considerando que o comando "Abrir" pode ser reconhecido individualmente e, em seguida, ter seus sufixos (Google, Photoshop, etc). reconhecido com outra rede / modelo / qualquer que seja. Mas não tenho certeza se procurar prefixos / quebras de palavras dessa maneira produziria melhores resultados do que ter que lidar com um número maior de comandos individuai

Eu estive procurando perceptrons, redes de hopfield (embora elas sejam um pouco obsoletas do que eu entendo) e HMMs, e enquanto eu entendo as idéias por trás delas (eu implementei as RNAs antes), eu realmente não sei qual é mais adequado para esta tarefa. Estou assumindo que os modelos de quantização linear de vetores também seriam apropriados, mas não consigo encontrar muita literatura para esse fim. Qualquer orientação / recursos seria muito apreciada.

questionAnswers(2)

yourAnswerToTheQuestion