1D Mehrfachspitzenerkennung?

Ich versuche derzeit, die grundlegende Spracherkennung in AS3 zu implementieren. Ich brauche dies, um vollständig clientseitig zu sein. Daher kann ich nicht auf leistungsstarke serverseitige Spracherkennungstools zugreifen. Die Idee, die ich hatte, war, Silben in einem Wort zu erkennen und damit das gesprochene Wort zu bestimmen. Ich bin mir bewusst, dass dies die Fähigkeit zur Erkennung erheblich einschränken wird, aber ich muss nur ein paar Schlüsselwörter erkennen und kann sicherstellen, dass sie alle eine unterschiedliche Anzahl von Silben haben.

Ich kann derzeit für ein gesprochenes Wort ein 1D-Array von Sprachpegeln generieren, und wenn ich es irgendwie zeichne, kann ich in den meisten Fällen deutlich erkennen, dass es für die Silben unterschiedliche Peaks gibt. Ich bin jedoch völlig festgefahren, wie ich diese Spitzen herausfinden würde. Ich brauche nur die Zählung wirklich, aber ich nehme an, das kommt mit dem Finden von ihnen. Zuerst dachte ich daran, ein paar Maximalwerte zu erfassen und sie mit dem Durchschnitt der Werte zu vergleichen, aber ich hatte diesen Peak vergessen, der größer als die anderen ist, und als solcher befanden sich alle meine "Peaks" auf einem tatsächlichen Peak.

Ich bin auf @ gestolpesome Matlab code das sieht fast zu kurz aus, um wahr zu sein, aber das kann ich nicht sehr, da ich es nicht in eine Sprache konvertieren kann, die ich kenne. Ich habe versucht, AS3 und C #. Ich frage mich also, ob ihr mich auf den richtigen Weg bringen könntet oder einen Pseudocode für die Peakerkennung hab

Antworten auf die Frage(6)

Ihre Antwort auf die Frage