«Сбер» представил новую версию нейросети Kandinsky
«Сбер» запустил новую версию своей нейросети — Kandinsky 2.1, которая способна создавать изображения по их текстовому описанию на естественном языке. Об этом AdIndex сообщила пресс-служба компании.
Инструмент также может смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Модель понимает запросы на 101 языке и умеет рисовать в различных стилях.
Нейросеть разработали и обучили исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.
Модель Kandinsky 2.1 была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения к уже имеющемуся набору в 1 млрд пар «текст — изображение». Затем она дообучалась на отдельно собранном датасете из 2 млн пар изображений. В этот сет попали картинки с описаниями в таких областях, как тексты и лица людей.
Нейросеть также усовершенствовали за счет новой обученной модели автоэнкодера, которая используется в числе прочего в качестве декодера векторных представлений изображений. Это улучшило генерацию картин в высоком разрешении. Благодаря этому новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.
Кроме того, Kandinsky 2.1 использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде нейросеть формирует представление картинки на основе текстовой информации и подает его на вход основной генеративной модели.
«Сбер» выпустил первую версию Kandinsky в июне 2022 г. Это была улучшенная версия нейросети ruDALL-E, которая генерировала картинки по описанию на русском языке. Вторая версия Kandinsky 2.0 была представлена в ноябре того же года.
Примеры работ Kandinsky 2.1: