Aplicação de rede neural a MFCCs para segmentos de fala de comprimento variável

Atualmente, estou tentando criar e treinar uma rede neural para executar uma classificação simples de fala usando MFCCs.

No momento, estou usando 26 coeficientes para cada amostra e um total de 5 classes diferentes - são cinco palavras diferentes com números variados de sílabas.

Embora cada amostra tenha 2 segundos de duração, não sei como lidar com casos em que o usuário pode pronunciar palavras muito lentamente ou muito rapidamente. Por exemplo, a palavra 'televisão' falada dentro de 1 segundo produz coeficientes diferentes da palavra falada dentro de dois segundos.

Qualquer conselho sobre como resolver este problema seria muito apreciado!

questionAnswers(1)

yourAnswerToTheQuestion