Aplicação de rede neural a MFCCs para segmentos de fala de comprimento variável
Atualmente, estou tentando criar e treinar uma rede neural para executar uma classificação simples de fala usando MFCCs.
No momento, estou usando 26 coeficientes para cada amostra e um total de 5 classes diferentes - são cinco palavras diferentes com números variados de sílabas.
Embora cada amostra tenha 2 segundos de duração, não sei como lidar com casos em que o usuário pode pronunciar palavras muito lentamente ou muito rapidamente. Por exemplo, a palavra 'televisão' falada dentro de 1 segundo produz coeficientes diferentes da palavra falada dentro de dois segundos.
Qualquer conselho sobre como resolver este problema seria muito apreciado!