Se puede configurar CMU Sphinx para reconocer ~ 200 palabras

Question

Jan 31, 2012, 04:07 AM

android speech-recognition speech-to-text

Se puede configurar CMU Sphinx para reconocer ~ 200 palabras

Tengo un cliente que necesita una aplicación de Android que pueda reconocer comandos hablados. Por lo que entiendo, la funcionalidad incorporada de voz a texto en realidad envía datos a los servidores de Google que luego envía una traducción de texto. Este es un problema importante, ya que los datos de voz son extremadamente sensibles (a menos que los datos estén encriptados cuando se envían desde y hacia Google, pero dudo que estén encriptados).

Hay 2 opciones en las que puedo pensar. Primero es convertir voz a texto en Android, aunque parece que sería una operación extremadamente costosa. La segunda posibilidad es que un servidor local convierta los datos por mí (podría cifrar los datos de voz y la traducción cuando se envían desde y hacia). ¿Es esto algo que CMU Sphinx podría lograr? Vale la pena señalar que también tendré acceso a un servidor Asterisk, que posiblemente podría ayudar con esto (no lo sé).

En realidad, solo debe haber ~ 200 palabras que deberán reconocerse. Preferiría soluciones de software libre / de código abierto, pero también estoy abierto a una solución comercial (quizás FlexT9). Idealmente, puedo enviar la transmisión de audio a alguna parte, recuperar una cadena que es el texto, y luego puedo analizar y hacer otras cosas con la cadena.

No he hecho mucho desarrollo de Android o de reconocimiento de voz en el pasado, así que espero que alguien pueda al menos señalarme en la dirección correcta. ¡Gracias