habrahabr

Я пользовался диктовкой и управлением голосом неделю и вот что получилось

  • понедельник, 9 февраля 2015 г. в 02:11:36
http://habrahabr.ru/post/249999/

Кажется, куда ни глянь, голосовое управление и диктовка добавляются во все приложения, операционные системы и игровые приставки. Нам нравится смеяться над тем, как плохо они работают, однако я решил погрузиться в тему с головой, для себя посмотреть на то, как это все работает, использовать голосовые функции… для всего. Вот что из этого получилось.

Зачем я связался с диктовкой вообще


Как всякий фанат научной фантастики я был заинтригован управлением речью и диктовкой. В фильмах это выглядит круто, и хотя мы еще не добрались, приближаемся к изображенному в кино ежедневно. Нравится нам или нет, в ближайшие годы мы будем управлять нашими компьютерами и телефонами речью все чаще.

Диктовка также имеет некий романтический налет. Это современный эквивалент бубнения своих мыслей в диктофон. Только теперь наши слова отображаются и в тексте пока мы говорим. Для того, кто целый день барабанит по клавишам, это звучит шикарно. Может, я смогу писать на ходу. Или, если уж честно, может, смогу писать не вылезая из постели или даже не садясь. (Вот, мечта!)

В действительности же, хоть я и не питал особых иллюзий о том, как все пройдет, возможность насладиться беседой со своими гаджетами победила. Буду ли я звучать и выглядеть смешно? Да, буду. Буду ли доставать своих друзей, отвечая на текстовые сообщения в общественных местах, разговаривая с телефоном? Да, буду. Но возможность влюбиться в такую жизнь стоит попытки.

День первый: обучение


image
Из просмотра множества научно-фантастических фильмов кажется, что управление голосом — процесс интуитивно понятный. В первый же день я осознал, что это далеко не так. Начал я с попытки написать несколько постов в блог с помощью диктовки. Вот выдержка моей первой попытки. Просто для понимания того, как плохо я представлял себе, как пользоваться сервисом:

, УдалитьНазадГоворитьПустьДжессика как ты говоришь в мой телефон звучит хорошо

Ясно, что первое, что произошло — я сказал неверное слово, которое постарался удалить. Потом я недолго покричал на компьютер. Что же, видимо, чтобы приспособиться, потребуется какое-то время.

Хорошо, что у нас хоть инструкция есть. Так что я пододвинул микрофон поближе, обучился основам форматирования (надо говорить «запятая», «пробел», и т.д.) и попробовал снова. Сначала я взялся за простенький текст. Вот что получилось:

Эта цитата взята из нашего недавнего интервью о фрикономике с сооснователем wired Кевином Келли, и является хорошим напоминанием о том, что этот будет необходимо определить отдельно.

О, это уже гораздо лучше первой попытки. Даже «фрикономику» распознал. Пришлось все же вернуться и добавить большую букву в начале Wired, сменить «будет» на «инструмент». Отдельно стоящий микрофон (не встроенный в ноутбук — прим.пер.), соединенный с пониманием комманд пунктуации сделал текст яснее.

Однако, меня смущали не столько ошибки системы, сколько сам факт, что надо говорить то, что я хочу напечатать. Оказалось, что диктовка не такое интуитивно понятное дело как я думал. Оказалось, чтобы придумать, что я хочу напечатать далее, мне надо делать длинные паузы. Когда печатаешь, у тебя море времени — можно остановиться и подумать над следующим предложением, а диктовка и речь заставляют желать двигаться быстрее. Мне понадобилось какое-то время, чтобы привыкнуть.

Стоит отметить, что использование диктовки на моем iPhone для коротких текстовых сообщений или почты прошло гораздо глаже. Из-за самой природы текстовых диалогов — они кратки — диктовка на телефоне далась мне легче. Мне даже нравилось диктовать ответы, хотя я явно раздражал окружающих.

День второй: настройка и использование речевых сервисов на компьютере


image
Когда пришел второй день использования диктовки, я понял, что если я хочу еще больше пользы от сервиса, придется влезть в предмет еще глубже. Это означало, что надо изучать сами речевые команды, а не ограничиваться диктовкой.

А это больше, чем диктовать, что хочешь сказать, это умение редактировать на лету. На Маке, как оказалось, если хочешь полностью управлять текстом, надо включить речевые команды: отройте «Настройки системы», затем «Доступ», там выбирайте «Диктовка», нажмите на кнопку «Команды диктовки» и, наконец, выделите чекбокс «Включить расширенные команды».

Включив расширенные команды, я смог управлять компьютером, открывать программы и, главное, редактировать текст. Вот здесь я осознал ошибку первого дня. Чтобы удалить неверное слово, надо сказать не просто «удалить», а «удалить это». Теперь я мог редактировать такими командами как «вырезать это», «копировать это», «откатить назад это» и «это с большой буквы». Если же вы не уверены, что надо сказать, чтобы произвести действие, вы можете произнести «показать команды» и получите всплывающее окно с доступными командами.

Пользователям Windows доступны другие наборы команд, но в общем они схожи, хотя им можно просто сказать «удалить» вместо «удалить это». Опыта использования управления речью в Windows у меня нет, но включить команды просто: в поиске находите «распознавание речи Windows» (оригинал текста приводит включение функции в Win7, к которой у меня доступа нет. прим. пер.).

Продвинутые команды на Маке позволяют вам управлять и приложениями. Можно использовать такие команды как «переключиться на [название программы]», «открыть документ» и «нажать на [предмет]», то есть делать что угодно. Нет команды на действие, которое хотите сделать? В настройках нажмите "+" и добавьте собственную команду. Печатаете фразу, которая будет вызывать действие, выбираете приложение для управления, затем указываете действие, которое необходимо провести. Я лично остался с клавиатурными сокращениями.

Возможность, к примеру, в Chrome на команду «смени таб» повесить сокращение Command+Option+Стрелка полностью сменила то, как я пользовался командами голосом. Если уж хочется еще сильнее погрузиться в процесс — можете начать управлять действиями Automator. Моих начальных знаний на это не хватило.

То же можно сказать о Siri. C ней надо точно знать, что можно говорить, а что нет. Стоит признать, однако, что и Siri (да и Google Now) более интуитивно понятны в речевых командах, нежели обычный ПК. Управлять всем на телефоне голосом очень просто и, если вы привыкли, что на вас косятся, даже приятно. Сегодня только второй день, а я уже ленюсь печатать сообщения двумя руками. Печально, но мне все равно.

День пять: наконец, голосовое управление стало удобным


Четвертый день прошел впустую, но на пятый я, наконец, втянулся. Я не только могу работать, но могу работать эффективно.

У меня на все необходимые действия созданы речевые команды. Я могу переключать табы в браузере, окна, запускать приложения, управлять действиями в них (к примеру, команда «далее» переходит между статьями в RSS клиенте) и могу провести почти весь день не касаясь клавиатуры или мыши. Это по своему круто, хотя голос у меня стал хриплым.

Диктовка тоже стала получаться. Надо полностью перестроить мозг: ведь раньше вы общались печатая, а теперь голосом. Так что для привыкания нужно время. В начале пару дней я печатал простыми предложениями, теперь же я смог включить в тексты свой «голос». Казалось бы, все сразу должно получиться, но голосовая диктовка не приносит персоналии в текст. Мне для этого пришлось поработать. Я не говорю так, как печатаю. Более того, во время диктовки я хожу туда-сюда, что, как оказалось, очень мне подходит.

Стоит упомянуть, однако, что команды из диктовки начали проникать в мою жизнь. Как минимум однажды я реальной беседе я произнес «запятая» вслух. Уверен, что это произошло от того, что я полностью погрузился в управление речью, но упомянуть стоило. Хорошо, хоть, собеседник воспринял мой пассаж с юмором.

День седьмой: принятие факта и возвращение клавиатуры


image
Подойдя к концу моего опыта, я привык к диктовке голосом и речевому управлению. У обоих сервисов есть плюсы, но я вернулся к клавиатуре и мыши.

Почти во всех статьях, где упоминается диктовка, авторы указывают, что статья, мол, написана полностью с помощью диктовки. Частенько в статьях встречаются забавные ошибки, не хватает пунктуации или слова стоят в странном порядке. Эту статью я написал полностью диктовкой. Но и редактировал я ее диктовкой. А когда закончил, я отредактировал ее с помощью клавиатуры и мыши. Затем я выслал ее другим людям на редактуру. Если вы не лишены возможности печатать, диктовка просто инструмент. Это не ответ для автора. Вам все равно надо редактировать после голосовой диктовки (это, в конце концов, и есть авторство).

Управление же речью штука веселая пару дней, а затем надоедает. Как по мне, так клавиатурные сокращения использовать быстрее. Навигация голосом скорее раздражает, нежели помогает. Но так хоть можно чипсы есть не заляпав мышь. Печатать тоже легче, потому что голова у меня под это дело заточена. Печально, что печатаю я гораздо лучше, чем говорю — даже после недельного пользования диктовки речь улучшилась едва. Это был веселый опыт, но мне кажется, что переучиваться на диктовку в долгосрочной перспективе не стоит усилий. Конечно, я могу лениво печатать статьи, лежа на полу (или стоя, если нет места за столом), но лучше сидеть прямо на стуле, печатая текст.

Но я вижу пользу от голосовых сервисов. Диктовка и управление голосом полезны, если ваш компьютер настроен как медиа-центр. Диктовка полезна тем, кто любит ходить туда-сюда в раздумьи. Но не ждите многого. Мне понравилось пользоваться диктовкой, но пользоваться ею можно только в брейнсторме или в передаче мыслей на бумагу, когда нет необходимости редактировать текст.

Сказав все это, признаюсь, что я стал лучше работать с Siri на моем Iphone, что я чаще ее использую, хотя не во время встреч и не в публичных местах. Siri полезна в случаях, когда я не могу посмотреть на телефон. Когда я хожу или бегу, еду на велосипеде или… ну, когда лень дотягиваться и тянуть телефон из зарядки. В мобильных управление речью более логично, потому что случаи, когда вы не можете дотянуться до телефона происходят чаще, чем когда вы не можете дотянуться до компьютера. Автомобиль — самое частое проявление таких случаев, но также это происходит во время готовки пищи, в обед, когда заняты руки. Обучиться использвать Siri или Google Now полезно, потому что если этого не сделать, вы так и не узнаете как ими пользваться и когда.