how para acelerar el discurso en la nube de google

Estoy usando un micrófono que graba el sonido a través de un navegador, lo convierte en un archivo y lo envía a un servidor Java. Luego, mi servidor Java envía el archivo a la API de voz en la nube y me da la transcripción. El problema es que la transcripción es muy larga (alrededor de 3.7 segundos por 2 segundos de diálogo).

Así que me gustaría acelerar la transcripción. Lo primero que debe hacer es transmitir los datos (si comienzo la transcripción al comienzo del registro. El problema es que realmente no entiendo la API. Por ejemplo, si quiero transcribir mi transmisión de audio desde la fuente ( navegador / micrófono) Necesito usar algún tipo de API JS, pero no puedo encontrar nada que pueda usar en un navegador (no podemos usar un nodo como este, ¿verdad?)

De lo contrario, necesito transmitir mis datos desde mi js a mi java (no estoy seguro de cómo hacerlo sin romper los datos ...) y luego empujarlos a través de streamingRecognizeFile desde allí:https: //github.com/GoogleCloudPlatform/java-docs-samples/blob/master/speech/cloud-client/src/main/java/com/example/speech/Recognize.jav

Pero se necesita un archivo como entrada, entonces, ¿cómo se supone que debo usarlo? Realmente no puedo decirle al sistema que terminé o no el registro ... ¿Cómo entenderá que es el final de la transcripción?

Me gustaría crear algo en mi navegador web al igual que la demostración de Google allí:https: //cloud.google.com/speech

Creo que hay algunas cosas fundamentales que no entiendo sobre la forma de usar la API de transmisión. Si alguien puede explicar un poco cómo debo procesar esto, sería genial.

Gracias

Respuestas a la pregunta(1)

Su respuesta a la pregunta