Нейросеть «Сбера» научилась генерировать анимационные видеоролики по текстовому описанию
В нейросети от «Сбера» Kandinsky 2.2 появилась возможность создавать видеоролики в режиме анимации. По одному текстовому описанию генерируется четырехсекундное видео c выбранным эффектом с частотой 24 кадра в секунду и разрешением 640x640 пикселей. Синтез одной секунды видео в среднем занимает около 20 секунд, сообщила пресс-служба компании.
Для того чтобы сгенерировать такое видео, необходимо описать текстом то, что хочется увидеть. Далее бот предложит на выбор 16 вариантов анимации сцены, а после этого нейросеть сгенерирует анимированный видеоролик. Также доступна генерация составных сцен: пользователь может ввести несколько текстовых описаний (до трех), затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».
Сейчас генерация анимационных видеороликов работает в тестовом режиме и доступна «самым активным пользователям Kandinsky 2.2», которые должны получить приглашение в ближайшее время. До конца года доступ к нейросети откроется для всех.
В основе для синтеза видео лежит модель генерации изображений по текстовым описаниям Kandinsky 2.2. Для расширения ее возможностей были реализованы разные виды анимации изображений, это позволило перемещать объекты, приближать, отдалять их и оживлять статику. Режим анимации работает с помощью функции image2image (перерисовка изображения по текстовому описанию) и inpainting/outpainting (дорисовка части изображения внутри и за его пределами), которые уже были реализованы в базовой модели.
В июле 2023 г. «Сбер» представил новую версию нейросети Kandinsky 2.2, которая позволяет создавать фотореалистичные изображения с более высоким разрешением и изменять соотношение сторон при генерации.