simple métodos de reconocimiento de voz

Sí, soy consciente de que el reconocimiento de voz es bastante complicado (como una subestimación). Lo que estoy buscando es un método para distinguir entretal ve 20-30 frases. Sería bueno tener la capacidad de dividir palabras (el habla discreta está bien), pero no es obligatorio. El software dependerá del usuario (es decir, para mi uso). No estoy buscando software existente, sino una buena manera de hacerlo yo mismo. He examinado varios métodos existentes y parece que dividir el sonido en fonemas, aunque común, es algo excesivo para mis necesidades.

Por algún contexto, solo estoy buscando una manera de controlar algunos aspectos de mi computadora con unos simples comandos de voz. Soy consciente de que Windows ya tiene un software de reconocimiento de voz, pero me gustaría abordarlo yo mismo como ejercicio de aprendizaje. Los comandos serían simples como "Abrir Google" o "Silenciar". Lo que tenía en mente (no estoy seguro si es una buena idea) es que algunos comandos serían compuestos. Entonces "Mute" sería simplemente "Mute". Mientras que el comando "Abrir" podría reconocerse individualmente y luego tener sus sufijos (Google, Photoshop, etc.). reconocido con otra red / modelo / lo que sea. Pero no estoy seguro si buscar prefijos / saltos de palabras de esta manera produciría mejores resultados que tener que lidiar con un mayor número de comandos individuales.

He estado buscando perceptrones, redes hopfield (aunque son algo obsoletas por lo que entiendo) y HMM, y aunque entiendo las ideas detrás de esto (he implementado los ANN antes) realmente no sé qué es el más adecuado para esta tarea. Supongo que los modelos de cuantificación vectorial lineal también serían apropiados, pero realmente no puedo encontrar mucha literatura para este fin. Cualquier orientación / recursos sería muy apreciada.

Respuestas a la pregunta(4)

Su respuesta a la pregunta