17 Октября 2011 | 10:51

Субтитры для глухих на телеэкране будут с ошибками — зато во многих передачах

Минкомсвязи сформулировало технические требования для субтитров, которые компьютер будет автоматически создавать для телевизионных передач на основе распознавания речи

У скрытых (они будут показываться только по желанию телезрителя) субтитров будет много интересных свойств — но современные технологии не позволяют сделать их достаточно качественными. В каждом абзаце текста будут ошибки, предсказывают специалисты.

Субтитры на пяти телеканалах

Как уже сообщал «Маркер», летом нынешнего года правительство утвердило план государственного финансирования цифровых телеканалов для создания ими программ для инвалидов. До 2015 года НТВ, «Первый канал», телеканал «Россия 1», «Культура» и детский канал «Карусель» снабдят передачи скрытыми субтитрами. Эти субтитры будут сопровождать телепередачи практически постоянно, а телезритель по своему желанию сможет их включить или выключить, нажав кнопку на пульте, отвечающую за телетекст.

Для начала пять каналов обязаны снабдить скрытыми субтитрами по 2,5 тыс. часов вещания в год — это около семи часов в день. Впоследствии это время будет увеличено. На данные цели правительство выделило 250 млрд рублей.

Во Всероссийском обществе глухих для федеральных каналов уже подготовили перечень программ, которые потенциальная аудитория хотела бы видеть на экране. Прежде всего это все выпуски новостей, художественные фильмы в вечернее и дневное время, оглашения решений правительства РФ, выступления первых лиц государства, а также заявления глав политических фракций. В перечень вошли предвыборные речи и ролики кандидатов на грядущих президентских выборах.

Технология интеллектуальная, но неточная

Минкомсвязи выделило 33 млн рублей на разработку комплекса автоматической подготовки скрытых субтитров в реальном времени для внедрения на общероссийских обязательных общедоступных телеканалах. К интеллекту будущей системы предъявляют высокие требования. Она должна выделять участки, где звучит человеческая речь, и не пытаться «переводить» музыку и шумы, уметь определять тему беседы — чтобы подключить соответствующие словари. Компьютер будет опознавать смену диктора и отмечать это в субтитрах. Для передач с постоянными ведущими будет сразу подставляться фамилия говорящего.

Современные технологии качественно распознают речь, когда диктор четко говорит и раздельно произносит слова, рассказывает эксперт компании «Целевые технологии» Николай Попов. Но чаще всего люди произносят фразы слитно, глотая отдельные буквы или целые окончания слов. Такие фонограммы пока обрабатываются не очень надежно.

Современные компьютерные системы могут делать субтитры в реальном масштабе времени, с задержкой 1–3 секунды, отмечают эксперты компании Istrasoft. Тексты, которые читают дикторы, должны быть написаны на хорошем литературном языке, считают они. Иначе программе будет затруднительно определить тематику.

Иностранные и российские продукты

Руководитель проекта по распознаванию речи питерской компании AudiTech Сергей Драмницкий в разговоре с «Маркером» подчеркнул, что ни одна из существующих программ не позволяет в реальном времени распознавать русский телеэфир с приемлемой точностью. По его словам, лидеры рынка распознавания речи — американские компании Nuance и Google.

Nuance активно снабжает своим ПО иностранные телеканалы и студии — процент ошибок составляет 5–7%. Но эта фирма не создает аналогичных систем для русского языка. В России также покупают продукты этой корпорации, приблизительно по 3 млн рублей за копию, — для мониторинга и аналитики западного телеэфира. Что касается распознавания в реальном времени от Google, то ее система работает лишь с короткими (1–2 предложения) запросами. Она создавалась для голосовых запросов к интернет-поисковику. AudiTech проводила тест для Google: для 10 тыс. русскоязычных аудиозапросов точность составила лишь 81%. При этом российским продуктам — например, от Центра речевых технологий или Vocative — до результатов Google далеко, считают эксперты AudiTech.

Впрочем, мировые и с десяток российских компаний могут предложить отечественному потребителю хорошие системы для выполнения специфичных задач — «речевые замки» или ПО для call-центров. Здесь, рассказывает Драмницкий, точность распознавания в реальном времени достигает 95–97%.

Источник: Маркер