[6]

ользую микрофон, который записывает звук через браузер, преобразует его в файл и отправляет файл на сервер Java. Затем мой Java-сервер отправляет файл в облачную речь API и дает мне транскрипцию. Проблема в том, что транскрипция очень длинная (около 3,7 с в течение 2 с диалога).

Поэтому я хотел бы ускорить транскрипцию. Первое, что нужно сделать, - это поток данных (если я начинаю транскрипцию в начале записи. Проблема в том, что я не совсем понимаю API. Например, если я хочу транскрипировать свой аудиопоток из источника ( браузер / микрофон) Мне нужно использовать какой-то JS API, но я не могу найти ничего, что я могу использовать в браузере (мы не можем использовать такой узел, как мы можем?).

В противном случае мне нужно передать мои данные из js в java (не знаю, как это сделать, не разбивая данные ...), а затем протолкнуть их через streamingRecognizeFile оттуда:https://github.com/GoogleCloudPlatform/java-docs-samples/blob/master/speech/cloud-client/src/main/java/com/example/speech/Recognize.java

Но он принимает файл в качестве входных данных, так как я должен его использовать? Я не могу сказать системе, которую я закончил, или нет записи ... Как он поймет, что это конец транскрипции?

Я хотел бы создать что-то в своем веб-браузере, например, демо-версию Google:https://cloud.google.com/speech/

Я думаю, что есть некоторые фундаментальные вещи, которые я не понимаю о том, как использовать потоковый API. Если кто-то может немного объяснить, как мне следует поступить с этим, это было бы здорово.

Спасибо.

Ответы на вопрос(1)

Ваш ответ на вопрос