CMU Sphinx pode ser configurado para reconhecer ~ 200 palavras

Question

Jan 31, 2012, 04:07 AM

android speech-recognition speech-to-text

CMU Sphinx pode ser configurado para reconhecer ~ 200 palavras

Tenho um cliente que precisa de um aplicativo Android que reconheça comandos de voz. Pelo que entendi, a funcionalidade embutida de voz para texto na verdade envia dados para os servidores do Google, que depois enviam uma tradução de texto. Esse é um problema grave, pois os dados de voz são extremamente sensíveis (a menos que sejam criptografados quando enviados para e do Google - mas duvido que estejam criptografados

Existem duas opções em que posso pensar. O primeiro é converter a fala em texto no Android, embora isso pareça uma operação extremamente cara. A segunda possibilidade é ter um servidor local para converter os dados para mim (eu poderia criptografar os dados de voz e a tradução quando estiverem sendo enviados de e para). Isso é algo que o CMU Sphinx poderia realizar? Pode ser interessante notar que também terei acesso a um servidor Asterisk, o que poderia ajudar com isso (não sei).

Na realidade, deve haver apenas ~ 200 palavras que precisarão ser reconhecidas. Eu preferiria soluções de software livre / de código aberto, mas também estou aberto a uma solução comercial (talvez FlexT9). Idealmente, posso enviar o fluxo de áudio para algum lugar, recuperar uma String que é o texto e, em seguida, analisar e fazer outras coisas com a String.

Eu não fiz muito desenvolvimento Android ou reconhecimento de fala no passado, então espero que alguém possa pelo menos me indicar a direção certa. Obrigado