Introdução ao reconhecimento de fala e python

Eu gostaria de saber onde alguém poderia começar com o reconhecimento de fala. Não com uma biblioteca ou qualquer coisa que é razoavelmente "Black Box'ed" Mas, em vez disso, eu quero saber onde eu posso realmente fazer um script de reconhecimento de fala simples. Fiz algumas buscas e descobri, não muito, mas o que tenho visto é que existem dicionários de 'sons' ou sílabas que podem ser reunidos para formar texto. Então, basicamente, minha pergunta é onde posso começar com isso?

Além disso, como isso é um pouco otimista, eu também ficaria bem com uma biblioteca (por enquanto) para usar no meu programa. Eu vi que alguns discursos em bibliotecas de texto e APIs geravam apenas um resultado. Tudo bem, mas seria irrealizável. Meu programa atual já verifica a gramática e tudo de qualquer texto digitado, de modo que, se eu tivesse a dizer, os dez melhores resultados do software de fala para texto, do que poderia verificar cada um e descartar qualquer que não faz sentido .

questionAnswers(6)

yourAnswerToTheQuestion