Применение нейронной сети к MFCC для речевых сегментов переменной длины

В настоящее время я пытаюсь создать и обучить нейронную сеть для выполнения простой классификации речи с использованием MFCC.

На данный момент я использую 26 коэффициентов для каждой выборки и в общей сложности 5 разных классов - это пять разных слов с различным количеством слогов.

Несмотря на то, что каждый образец длится 2 секунды, я не уверен, как обращаться со случаями, когда пользователь может произносить слова либо очень медленно, либо очень быстро. Например, слово «телевидение», произнесенное в течение 1 секунды, дает другие коэффициенты, чем слово, произнесенное в течение двух секунд.

Любой совет о том, как я могу решить эту проблему, будет высоко ценится!

Ответы на вопрос(1)

Ваш ответ на вопрос