Начало работы с распознаванием речи и Python

Я хотел бы знать, где можно начать с распознавания речи. Не с библиотекой или чем-то, что является «черным ящиком» или «чем-то вроде этого» Но вместо этого я хочу знать, где я могу на самом деле сделать простой сценарий распознавания речи. Я провел некоторый поиск и нашел немного, но то, что я видел, это то, что есть словари «звуков». или слоги, которые могут быть соединены вместе, чтобы сформировать текст. Так что в основном мой вопрос: с чего мне начать?

Кроме того, так как это немного оптимистично, я также буду в порядке с библиотекой (пока) для использования в моей программе. Я видел, что некоторые речи в текстовых библиотеках и API выдают только один результат. Это нормально, но это было бы нереально. Моя текущая программа уже проверяет грамматику и все введенные тексты, так что, если бы я должен был сказать, что первые десять результатов от программного обеспечения для преобразования речи в текст, то она могла бы проверить каждую и исключить любую, которая не имеет смысла. ,