Компания Цукерберга создала нейросеть, которая превращает текст в видео
Фото: Meta/ из открытых источников
Разработчики компании Meta, в частности Марк Цукерберг, создали новую нейросеть Make-A-Video, которая умеет генерировать видео из текстового описания. Об этом сообщили в издании Mashable.
Сейчас Make-A-Video может генерировать видео не более 5 секунд с низким качеством и без звука, однако это все равно большой шаг вперед на фоне всего существовавшего до.
"Сгенерировать видео гораздо труднее, чем фотографии, потому что помимо правильного создания каждого пикселя, система также должна предугадать, как они будут меняться со временем. Make-A-Video решает эту проблему, добавляя уровень неконтролируемого обучения, позволяющий системе понимать движение в физическом мире и применять его к традиционному генерированию текста в изображение", - написал Марк Цукерберг.
Эта система работает следующим образом: Make-A-Video анализирует текстовый запрос и генерирует 16 кадров видео с разрешением 64 на 64 пикселя каждый. Затем их увеличивают с помощью другой системы – и готово. Как утверждают разработчики, нейросеть обучали делать изображения и двигать их на миллионах видеороликов, в частности, стоковых.
"Все эти видео были сгенерированы системой искусственного интеллекта, созданной нашей командой Meta. Мы называем это Make-A-Video. Вы даете ему текстовое описание, и он создает для вас видео. Мы дали ему такие описания: "плюшевый мишка рисует автопортрет", "младенец-ленивец с вязаной шапочкой пытается понять ноутбук", "земляющийся на Марс космический корабль" и "катающийся на волне в океане робот", - добавил описание к видео Цукерберг.
Подготовил: Сергей Дага