Главная ∕ Нейросети

CogVideo — нейросеть создающая видео из текстовых подсказок

Theya — 20.01.2023

Инструменты генерации текста в изображение и изображений в текст уже набирают обороты. А как насчет превращения текста в видео? И такое имеется! Расскажем о CogVideo подробнее.

Прошло всего несколько месяцев с момента выпуска революционных генераторов ИИ из текста в изображение, Dall-E2 и MidJourney. Теперь настало время видео!

Существует новая (и, возможно, первая) крупная и обученная модель преобразования текста в видеоролик с открытым исходным кодом под названием CogVideo.

Проще говоря, это инструмент ИИ, который может создавать видео, без каких-либо реальных съемок!

Давайте поговорим об этом подробнее:

Что такое CogVideo?

Вот как описывают CogVideo создатели на своем демонстрационном сайте:

CogVideo является крупнейшим предварительно обученным трансформатором для генерации текста в видеоролики. В нем наличествует 9,4 миллиарда параметров.

CogVideo использует иерархическую технику обучения с несколькими кадрами. Он эффективно совершенствует предварительно обученную модель генерации текста в изображение (CogView2) для преобразования текста в картинку.

Это довольно многословно, наглядно же работу CogView2 показывает размещенная ниже демонстрация с коллажем, взятая из их официального репозитория на GitHub.

Как это работает

На картинке ниже представлена схема иерархической генерации с несколькими кадрами в CogVideo.

Входная последовательность включает частоту кадров, текст и маркеры кадров. Входной кадр является маркером-разделителем, унаследованным от CogView2.

Этап 1: кадры генерируются последовательно с заданной частотой кадров и текстом.
Этап 2: Сгенерированные кадры повторно вводятся как двунаправленные области для рекурсивной интерполяции кадров. Частота кадров может быть отрегулирована на обоих этапах генерации. Двунаправленные области внимания выделены синим цветом, а однонаправленные — зеленым.

Существует простое веб-приложение…

Веб-приложение, которое вы можете использовать для тестирования, встроено в библиотеку приложений машинного обучения Hugging Faces.

Пользовательский интерфейс довольно прост. Он состоит из кнопки “Run”, регулятора “Seed” и поля “Input Text”, в которое и вводится текстовое описание.

Вот и все!

Перед вами скриншот из приложения с примером подсказки о кошке, играющей в шахматы.

Что такое “семя”?

Семя (Seed) предоставляет генератору случайных чисел необходимое пространство для начала работы. Например, использование значения “-1” в качестве значения по умолчанию заставляет генератор выбирать случайное зерно. Это означает, что даже если все остальные значения одинаковы, каждый раз конечные результаты будут отличаться друг от друга. Вводя число, вы даете генератору разрешение дублировать предыдущие результаты.

Если вы хотите просто впечатлиться и поэкспериментировать с текстовыми подсказками, для таких случаев CogVideo выпустила еще одно демонстрационное веб-приложение. Доступ к нему можно получить здесь.

Prompt: A smiling woman wearing a red dress.

Текущие ограничения

Последние достижения CogVideo уже очень впечатляют, но все еще есть много препятствий, которые ИИ необходимо преодолеть, а именно:

ИИ-модель может генерировать видео только с разрешением 480×480, продолжительностью 4 секунды и частотой кадров 8 кадров в секунду.
Поскольку модель была обучена на 9 миллиардах наборов данных, начинать с нуля было бы непомерно дорого с точки зрения вычислений.
Она еще довольно молода. Модель не способна понять сложную семантику движений из-за нехватки и низкой релевантности наборов данных “текст-видео”. На данный момент только 41 250 видеороликов составляют крупнейший аннотированный набор текстово-видеоданных.
Модель принимает на вход только китайский язык. Вводимые на английском языке данные должны быть переведены в упрощенный китайский язык при подаче запроса.
Если вы захотите попробовать сами, то, скорее всего, вам придется долго ждать (около часа), пока сгенерируется видео, поскольку контейнер размером 63 ГБ работает на графическом процессоре NVidia A100.

Что дальше?

Пока CogVideo находится в зачаточном состоянии, видеоролики, которые она может генерировать, довольно коротки, но потенциал данной технологии огромен.

Например, она может создавать реалистичные анимации персонажей для фильмов и видеоигр. Кроме того, ее можно использовать для создания учебных видеороликов или для автоматической генерации видео из текстовых статей.

Через несколько лет это позволит людям создавать видео из текста, не прибегая к съемкам и монтажу. Последствия огромны — это может навсегда изменить способ создания и потребления видеоконтента.

Заключительные мысли

В целом, CogVideo может стать мощным инструментом для компаний, которые хотят создавать видео без больших затрат на производство. По мере развития технологии будет интересно посмотреть, насколько хорошо она работает и для каких других целей может быть использована.

Но одно можно сказать наверняка: ИИ-видеогенераторы уже здесь и скоро изменят подход к созданию видео, и нам не терпится увидеть, что будет дальше.