javascript

Чем «транскрибирование» отличается от «распознавания голоса»

  • вторник, 28 ноября 2017 г. в 03:13:24
https://habrahabr.ru/company/Voximplant/blog/343196/
  • Разработка мобильных приложений
  • Разработка веб-сайтов
  • Программирование
  • JavaScript
  • Блог компании Voximplant



Голосовых помощников сейчас делают все. Их встраивают в телефоны, наушники, отдельно стоящие колонки, они пытаются с нами общаться при звонках в тех поддержку и заменить «нажмите 1 чтобы связаться с оператором» в голосовых меню. Наше «лего для телефонии» Voximplant предлагает разные варианты распознавания голоса уже много лет, и под катом я на примере нескольких строк JavaScript покажу основные варианты, чем они отличаются друг от друга и почему «потоковое распознавание от гугла» — это не всегда самый лучший вариант.

Потоковое распознавание


Идея в том, что голос в реальном времени передается в сервис вроде Google Speech API, а тот его «пытается распознать» и по мере сил возвращает обратно распознанные слова, фразы и предложения. Главная сложность для сервиса — понять, что поток звуков является законченным словом или фразой, а не началом длинного слова. С помощью Voximplant потоковое распознавание можно попробовать в пару строк кода: