Вот и поговорили
Как речевые технологии изменят человека, его жизнь, работу и сами технологии
В будущем вряд ли сохранятся колл-центры в привычном нам всем виде — голосовые роботы смогут помогать в обслуживании клиентов и обрабатывать огромное количество обращений без утомительного ожидания на линии. Поговорить с ними можно будет о чем угодно, а не только о кредите, новом тарифе или записи на тест-драйв. Рэй Брэдбери в этом месте сочинил бы рассказ
Конечно, возможности речевых технологий не ограничиваются только выводом колл-центров на принципиально иной уровень. Сегодня распознавание голоса используется гораздо шире, хотя многие об этом и не догадываются, а в будущем голосовой интерфейс станет доминирующим. Вот каким будет будущее благодаря речевым технологиям.
Отсутствие языковых барьеров: распознавание речи и автоматический перевод с любого языка
Технологии распознавания речи активно мигрируют из колл-центров в офисы и даже уже на улицы. Бизнес формирует новый запрос к таким технологиям: понимать максимально естественный диалог — с разной громкостью, темпом, перебиваниями, спонтанной речью и т.д. Системы распознавания начнут работать в реальном времени, а интерпретация будет усложняться. Уже сейчас есть базы знаний, которые в будущем получат распространение, в них будут появляться качественно новые знания, которые будут использоваться как для принципиально новой аналитики, так и для построения новых технологий: например, еще более совершенных переводчиков в реальном времени. Задача распознавания речи будет решена: даже в самых сложных условиях системы будут работать на уровне человека или лучше. В свою очередь, большие базы знаний будут использоваться как для принципиально новой аналитики, так и для построения новых технологий: например, переводчики в реальном времени.
Во всяком случае уже сейчас технологии позволяют транскрибировать речь в текст в таких специфических отраслях, как медицина: в московских клиниках врачи могут заполнять документы, просто надиктовывая текст. Чтобы научить систему правильно распознавать все специальные термины, понадобилось порядка 2 млн медицинских протоколов, а также целый год обработки материалов. При этом сама система обучалась всего неделю.
Легко себе представить аналогичную систему, которая умеет также распознавать любой естественный язык и делать качественный перевод, учитывая контекст. Конечно, масштаб задачи совсем другой, но задача вполне решаемая: с каждым годом нейросети становятся все более сложными и «умными», процесс их обучения становится проще, в том числе и из-за развития компьютерных технологий, которые становятся мощнее. Задача распознавания естественных диалогов, когда люди перебивают друг друга, когда может быть громкий фоновый шум и прочие помехи, решается уже прямо сейчас (задача распознавания голоса одного диктора решена еще десять лет назад). Так что вполне вероятно, что уже в следующем десятилетии, или даже раньше, прикладная необходимость изучать иностранные языки отпадет — можно будет учить их в свое удовольствие.
Это может повлиять, например, на туристический и гостиничный сервис, локальный бизнес — границы между странами станут еще более размытыми, людям проще и комфортней станет путешествовать, покупать товары в других странах и т. д. То же касается и образованиЕ: уже сегодня можно дистанционно учиться во многих, в том числе ведущих, университетах мира, но для каких-то студентов языковой барьер может быть препятствием. Будущее — это мир без языковых барьеров.
Голосовой интерфейс в лифте и дома у вашей бабушки
Голосовой интерфейс — вероятно, самый удобный из всех возможных (конечно, со скидкой на то, что не всегда может быть удобно говорить вслух). Хотя какие-нибудь нейробиологи поспорят и скажут, что удобней управлять чем-нибудь силой мысли. Но если говорить о более или менее ближайшем будущем, то голосовые интерфейсы появятся везде — от банкоматов (вместо пин-кода — голосовая биометрия) до лифтов, от автомобилей и тракторов до, понятно, «умных домов», про которые и так уже все все знают. «Поколение Альфа» (родившиеся в 2010-х) в свои 20-30 лет будут жить в мире повсеместного голосового интерфейса.
Можно себе представить, как в магазинах, банках, госучреждениях, юридических консультациях и пр. появятся диджитал-аватары (как они будут выглядеть — вопрос в данном случае вторичный), которые ответят на любой вопрос посетителя или клиента. Аватары будут наделены индивидуальностью, разговаривать максимально естественно, и скорее всего будут уметь распознавать эмоции человека и подстраиваться под них. Здесь можно фантазировать: компании, которые посчитают это целесообразным, могут создавать аватара, готового с вами поспорить.
Виртуальные помощники и аватары станут обычным делом: все больше пользователей предпочитает потреблять услуги дистанционно и бизнес идет вслед за ними, этот процесс необратим. Поэтому уже в ближайшие пять лет голосовые и текстовые роботы будут у большинства компаний — в первую очередь, конечно, у крупных, поскольку голосовые системы лучше будут обучаться на большем числе клиентских обращений. Эти роботы будут вести диалог на естественном языке — и делать это естественно, учитывая особенности произношения и даже эмоций. В конце концов таких роботов можно будет создавать уже не на большой базе данных, а на относительно малых — процесс их создания станет проще.
Новый user experience в рекламе и маркетинге
Выстреливший Clubhouse только подтвердил ожидания экспертов в том, что именно голос станет главным трендом — как в соцмедиа, так и в общении брендов с клиентами, да и вообще в жизни. Интересно посмотреть, как будет развиваться Clubhouse дальше, который стал во многом первопроходцем и может стать площадкой для тестирования разных кейсов. С помощью речевых технологий — распознавание, речевая аналитика, синтез речи — для брендов здесь открываются новые возможности в области аудио маркетинга и рекламы. Например, можно создавать диджитал-аватара бренда, который будет полноценно участвовать в диалоге или, например, синтезировать голос известного человека (с соблюдением всех формальных процедур) и пригласить его в свою брендированную комнату. Речевая аналитика позволит быстро реагировать на негативные отклики о бренде. Здесь открывается большое поле для экспериментов и новых возможностей., и скорее всего какие-то новые кейсы мы сможем увидеть уже в этом году. В будущем же использование технологий синтеза речи и речевой аналитики для крупных брендов, любящих креативный подход в реклама и маркетинге, станут обычным делом.
Голосовые технологии у вас на работе: личный голосовой ассистент
Один из главных трендов в менеджменте сегодня — это концепция цифрового рабочего места, единого пространства коммуникации сотрудников. Еще многое предстоит сделать, но голосовым технологиям здесь тоже найдется место: от относительно простого голосового робота на горячей линии для сотрудников, который может ответить на любые справочные вопросы, до транскрибирования речи в текст во время планерок, митапов, переговоров и т.д. Здесь уже нужно идентифицировать каждого отдельного диктора, записать, кто, что и когда сказал — чтобы на выходе получался рабочий документ, протокол, с которым можно работать как с готовым документом. У каждого сотрудника появится голосовой виртуальный ассистент, который снимет значительную долю рутины. Многие из этих технологий уже есть, но еще нет готового продукта, который закрывал бы сразу все задачи.
Те же привычные всем нам колл-центры трансформируются уже в ближайшие несколько лет — крупные компании из банковского и телеком-секторов активно внедряют голосовые технологии: голосовых роботов, анализ речи и т. д. Это облегчает обслуживание клиентов, когда приходится ежедневно обрабатывать огромное количество обращений. Технологии здесь нужны и для повышения качества обслуживания, и для повышения качества обработки обратной связи клиентов. Это уже помогает улучшать клиентский сервис и развивать бизнес, слыша голос своего клиента, и этот тренд только усилится.
Материал был впервые опубликован в 44-м номере журнала AdIndex Print Edition. Подписаться на свежие выпуски можно здесь.
Еще больше материалов из журнала в аудиоформате