Comenzando con el reconocimiento de voz y python

Me gustaría saber dónde se puede comenzar con el reconocimiento de voz. No con una biblioteca o algo que sea bastante "Black Box'ed" Pero en su lugar, quiero saber dónde puedo crear un sencillo script de reconocimiento de voz. Hice una búsqueda y encontré, no mucho, pero lo que he visto es que hay diccionarios de "sonidos" o sílabas que se pueden juntar para formar un texto. Así que básicamente mi pregunta es ¿dónde puedo empezar con esto?

Además, como esto es un poco optimista, también estaría bien con una biblioteca (por ahora) para usar en mi programa. Vi que algunas bibliotecas de voz a texto y API solo escupen un resultado. Esto está bien, pero sería irrealizable. Mi programa actual ya verifica la gramática y todo el texto ingresado, de modo que si tuviera que decir, los diez primeros resultados del software de voz a texto, podría revisar cada uno y descartar cualquiera que no tenga sentido .

Respuestas a la pregunta(6)

Su respuesta a la pregunta