news.shamcode.ru | Чем «транскрибирование» отличается от «распознавания голоса»

Чем «транскрибирование» отличается от «распознавания голоса»

вторник, 28 ноября 2017 г. в 03:13:24

https://habrahabr.ru/company/Voximplant/blog/343196/

Разработка мобильных приложений
Разработка веб-сайтов
Программирование
JavaScript
Блог компании Voximplant

Голосовых помощников сейчас делают все. Их встраивают в телефоны, наушники, отдельно стоящие колонки, они пытаются с нами общаться при звонках в тех поддержку и заменить «нажмите 1 чтобы связаться с оператором» в голосовых меню. Наше «лего для телефонии» Voximplant предлагает разные варианты распознавания голоса уже много лет, и под катом я на примере нескольких строк JavaScript покажу основные варианты, чем они отличаются друг от друга и почему «потоковое распознавание от гугла» — это не всегда самый лучший вариант.

Потоковое распознавание

Идея в том, что голос в реальном времени передается в сервис вроде Google Speech API, а тот его «пытается распознать» и по мере сил возвращает обратно распознанные слова, фразы и предложения. Главная сложность для сервиса — понять, что поток звуков является законченным словом или фразой, а не началом длинного слова. С помощью Voximplant потоковое распознавание можно попробовать в пару строк кода: