Speech to Text a partir do próprio arquivo de som

Como você provavelmente sabe, implementar a conversão de texto em texto é bastante fácil com a API do Android. Tudo o que você precisa fazer é chamar a intenção da API e ela retornará texto para você. Meu caso é um pouco diferente, tenho um arquivo de som 3GPP pré-gravado que gravei do usuário e é salvo no cartão SD. Quero saber se é possível transcrever isso em texto como qualquer outro reconhecimento de fala. A API de conversão de texto em texto permite que você envie seus próprios arquivos de som para serem processados? Ou isso é impossível?

questionAnswers(3)

yourAnswerToTheQuestion