¿Detección de pico múltiple 1D?

Actualmente estoy tratando de implementar el reconocimiento de voz básico en AS3. Necesito que esto sea completamente del lado del cliente, como tal, no puedo acceder a potentes herramientas de reconocimiento de voz del lado del servidor. La idea que tuve fue detectar sílabas en una palabra y usarla para determinar la palabra hablada. Soy consciente de que esto limitará en gran medida las capacidades de reconocimiento, pero solo necesito reconocer algunas palabras clave y puedo asegurarme de que todas tengan un número diferente de sílabas.

Actualmente soy capaz de generar una matriz 1D de nivel de voz para una palabra hablada, y puedo ver claramente, si de alguna manera lo dibujo, que hay picos distintos para las sílabas en la mayoría de los casos. Sin embargo, estoy completamente atascado en cuanto a cómo descubriría esos picos. Realmente solo necesito el conteo, pero supongo que eso viene con encontrarlos. Al principio pensé en tomar algunos valores máximos y compararlos con el promedio de los valores, pero me había olvidado de ese pico que es más grande que los demás y, como tal, todos mis "picos" se encontraban en un pico real.

Me tropecé conalgún código de Matlab eso parece casi demasiado corto para ser cierto, pero no puedo hacerlo porque no puedo convertirlo a ningún idioma que conozca. Intenté AS3 y C #. Entonces, me pregunto si ustedes podrían iniciarme en el camino correcto o si tenían algún pseudocódigo para la detección de picos.

Respuestas a la pregunta(3)

Su respuesta a la pregunta