МТС создала мультимодальную ИИ-модель
Дочерняя для МТС MWS AI выпустила первую мультимодальную модель — Cotype VL. Она может одновременно анализировать изображения и текст. Об этом Forbes рассказал генеральный директор MWS AI Денис Филиппов.
Cotype VL содержит 32 млрд параметров и распознает изображения с печатным, рукописным и смешанным текстом. Модель также учитывает визуальный контекст при переводе с одного языка на другой, умеет создавать краткое и развернутое описание изображений. Также модель может отвечать на сложные вопросы, требующие рассуждений, сравнений и выводов.
Ее обучали с помощью набора данных из различных доменов, включая финансы, промышленность, IT, телеком и здравоохранение. Это более 150 000 документов с визуальными данными: контракты, письма, договоры, таблицы и схемы с картами и чертежами. Также ИИ изучал справки, открытки, чеки, билеты, грамоты, медицинские анализы и другое.
«Cotype VL поддерживает русский, английский, китайский и другие языки, что делает ее удобной для компаний с международным документооборотом», — рассказали разработчики.
Также представлен первый бенчмарк для оценки качества таких моделей, — MWS Vision Bench. Эксперты оценивают стоимость разработки в несколько сотен млн руб.
Это не первая мультимодальная модель в России — первыми ее создали эксперты Института искусственного интеллекта AIRI.