Detecção de pico múltiplo 1D?

Atualmente, estou tentando implementar o reconhecimento de fala básico no AS3. Eu preciso que isso seja completamente do lado do cliente, pois não consigo acessar poderosas ferramentas de reconhecimento de fala do lado do servidor. A idéia que tive foi detectar sílabas em uma palavra e usá-la para determinar a palavra falada. Estou ciente de que isso limitará as capacidades de reconhecimento, mas só preciso reconhecer algumas palavras-chave e garantir que todas elas tenham um número diferente de sílabas.

Atualmente, eu sou capaz de gerar uma matriz 1D de nível de voz para uma palavra falada, e posso ver claramente, se eu a desenhar de alguma forma, que existem picos distintos para as sílabas na maioria dos casos. No entanto, estou completamente paralisado sobre como descobrir esses picos. Eu realmente preciso da contagem, mas suponho que isso aconteça ao encontrá-las. No começo, pensei em pegar alguns valores máximos e compará-los com a média dos valores, mas havia me esquecido daquele pico maior que os outros e, como tal, todos os meus "picos" estavam localizados em um pico real.

Eu tropecei emalgum código Matlab isso parece muito curto para ser verdade, mas não posso, pois não consigo convertê-lo para qualquer idioma que eu conheça. Eu tentei AS3 e C #. Então, eu estou querendo saber se vocês poderiam me iniciar no caminho certo ou se tivessem algum pseudo-código para detecção de pico?

questionAnswers(3)

yourAnswerToTheQuestion