09 Октября 2025 | 08:09

МТС создала мультимодальную ИИ-модель

Дочерняя для МТС MWS AI выпустила первую мультимодальную модель — Cotype VL. Она может одновременно анализировать изображения и текст. Об этом Forbes рассказал генеральный директор MWS AI Денис Филиппов.

Cotype VL содержит 32 млрд параметров и распознает изображения с печатным, рукописным и смешанным текстом. Модель также учитывает визуальный контекст при переводе с одного языка на другой, умеет создавать краткое и развернутое описание изображений. Также модель может отвечать на сложные вопросы, требующие рассуждений, сравнений и выводов.

Ее обучали с помощью набора данных из различных доменов, включая финансы, промышленность, IT, телеком и здравоохранение. Это более 150 000 документов с визуальными данными: контракты, письма, договоры, таблицы и схемы с картами и чертежами. Также ИИ изучал справки, открытки, чеки, билеты, грамоты, медицинские анализы и другое.

«Cotype VL поддерживает русский, английский, китайский и другие языки, что делает ее удобной для компаний с международным документооборотом», — рассказали разработчики.

Также представлен первый бенчмарк для оценки качества таких моделей, — MWS Vision Bench. Эксперты оценивают стоимость разработки в несколько сотен млн руб.

Это не первая мультимодальная модель в России — первыми ее создали эксперты Института искусственного интеллекта AIRI.

Рейтинги
Лидеры рейтингов AdIndex
# Компания Рейтинг
1 Media Instinct №1 Медиабайеры 2024
2 Сбер Рекламодатель №1 2024
3 Realweb Digital Index 2024
–ейтинг@Mail.ru
Этот сайт использует cookie-файлы и рекомендательные технологии. Оставаясь на сайте, вы даете согласие на использование cookie-файлов и соглашаетесь с правилами применения рекомендательных систем на сайте.