Нейросеть CogVideo которая превращает текст в видео

CogVideo — нейросеть создающая видео из текстовых подсказок

admin Theya  —  20.01.2023

Инструменты генерации текста в изображение и изображений в текст уже набирают обороты. А как насчет превращения текста в видео? И такое имеется! Расскажем о CogVideo подробнее.

Прошло всего несколько месяцев с момента выпуска революционных генераторов ИИ из текста в изображение, Dall-E2 и MidJourney. Теперь настало время видео!

Существует новая (и, возможно, первая) крупная и обученная модель преобразования текста в видеоролик с открытым исходным кодом под названием CogVideo.

Проще говоря, это инструмент ИИ, который может создавать видео, без каких-либо реальных съемок!

Давайте поговорим об этом подробнее:

Что такое CogVideo?

Вот как описывают CogVideo создатели на своем демонстрационном сайте:

CogVideo является крупнейшим предварительно обученным трансформатором для генерации текста в видеоролики. В нем наличествует 9,4 миллиарда параметров.

CogVideo использует иерархическую технику обучения с несколькими кадрами. Он эффективно совершенствует предварительно обученную модель генерации текста в изображение (CogView2) для преобразования текста в картинку.

Это довольно многословно, наглядно же работу CogView2 показывает размещенная ниже демонстрация с коллажем, взятая из их официального репозитория на GitHub.

Как это работает

На картинке ниже представлена схема иерархической генерации с несколькими кадрами в CogVideo.

Входная последовательность включает частоту кадров, текст и маркеры кадров. Входной кадр является маркером-разделителем, унаследованным от CogView2.

  • Этап 1: кадры генерируются последовательно с заданной частотой кадров и текстом.
  • Этап 2: Сгенерированные кадры повторно вводятся как двунаправленные области для рекурсивной интерполяции кадров. Частота кадров может быть отрегулирована на обоих этапах генерации. Двунаправленные области внимания выделены синим цветом, а однонаправленные — зеленым.

Существует простое веб-приложение…

Веб-приложение, которое вы можете использовать для тестирования, встроено в библиотеку приложений машинного обучения Hugging Faces.

Пользовательский интерфейс довольно прост. Он состоит из кнопки «Run», регулятора «Seed» и поля «Input Text», в которое и вводится текстовое описание.

Вот и все!

Перед вами скриншот из приложения с примером подсказки о кошке, играющей в шахматы.

Что такое «семя»?

Семя (Seed) предоставляет генератору случайных чисел необходимое пространство для начала работы. Например, использование значения «-1» в качестве значения по умолчанию заставляет генератор выбирать случайное зерно. Это означает, что даже если все остальные значения одинаковы, каждый раз конечные результаты будут отличаться друг от друга. Вводя число, вы даете генератору разрешение дублировать предыдущие результаты.

Если вы хотите просто впечатлиться и поэкспериментировать с текстовыми подсказками, для таких случаев CogVideo выпустила еще одно демонстрационное веб-приложение. Доступ к нему можно получить здесь.

Prompt: A smiling woman wearing a red dress.

Текущие ограничения

Последние достижения CogVideo уже очень впечатляют, но все еще есть много препятствий, которые ИИ необходимо преодолеть, а именно:

  • ИИ-модель может генерировать видео только с разрешением 480×480, продолжительностью 4 секунды и частотой кадров 8 кадров в секунду.
  • Поскольку модель была обучена на 9 миллиардах наборов данных, начинать с нуля было бы непомерно дорого с точки зрения вычислений.
  • Она еще довольно молода. Модель не способна понять сложную семантику движений из-за нехватки и низкой релевантности наборов данных «текст-видео». На данный момент только 41 250 видеороликов составляют крупнейший аннотированный набор текстово-видеоданных.
  • Модель принимает на вход только китайский язык. Вводимые на английском языке данные должны быть переведены в упрощенный китайский язык при подаче запроса.
  • Если вы захотите попробовать сами, то, скорее всего, вам придется долго ждать (около часа), пока сгенерируется видео, поскольку контейнер размером 63 ГБ работает на графическом процессоре NVidia A100.

Что дальше?

Пока CogVideo находится в зачаточном состоянии, видеоролики, которые она может генерировать, довольно коротки, но потенциал данной технологии огромен.

Например, она может создавать реалистичные анимации персонажей для фильмов и видеоигр. Кроме того, ее можно использовать для создания учебных видеороликов или для автоматической генерации видео из текстовых статей.

Через несколько лет это позволит людям создавать видео из текста, не прибегая к съемкам и монтажу. Последствия огромны — это может навсегда изменить способ создания и потребления видеоконтента.

Заключительные мысли

В целом, CogVideo может стать мощным инструментом для компаний, которые хотят создавать видео без больших затрат на производство. По мере развития технологии будет интересно посмотреть, насколько хорошо она работает и для каких других целей может быть использована.

Но одно можно сказать наверняка: ИИ-видеогенераторы уже здесь и скоро изменят подход к созданию видео, и нам не терпится увидеть, что будет дальше.

Добавить комментарий

Популярные материалы
Самое обсуждаемое
Нейросеть рисует: аниме Властелин Колец Если бы по Властелину Колец сняли аниме. Попросили нейросеть Midjourney показать, как выглядят персонажи легендарной фентезийной ...
3 недели назад 6
Промокоды Genshin Impact на январь 2023. Бесплатные примогемы Собрали актуальные промокоды Genshin Impact, которые вы можете использовать в игре прямо сейчас.
4 недели назад 5
Нейросеть рисует: Пикачу в разных стилях и сеттингах Как Midjourney видит милую электромышь. Такого Пикачу вы еще не видели!
4 недели назад 4
Аниме «Звездные Войны» глазами нейросети Midjourney Нейросеть Midjourney показала, как выглядело бы аниме «Звездные Войны». Сделали арты при помощи нового фильтра ИИ, для генерации --niji
4 недели назад 3
Нейросеть рисует: милые девушки-кролики из Final Fantasy Мы решили немного поэкспериментировать и создать при помощи нейросети Midjourney изображения с красивыми Виерами
4 недели назад 3
Самые ожидаемые игры 2023 года Что нам приготовил 2023-й: собрали интересные игровые проекты, которые выйдут в этом году.
4 недели назад 3
Potion Craft: Alchemist Simulator. Гайд по репутации Магия, снадобья и бизнес: как стать авторитетным алхимиком в симуляторе зельеварения.
3 недели назад 2
Нейросеть рисует: The Legend of Zelda в стиле комиксов DC Как бы выглядела The Legend of Zelda, если бы ее рисовал Френк Миллер. Midjourney сделала героев популярной игровой серии частью комиксов DC.
4 недели назад 2
Нейросеть рисует: милые животные, которые покорят ваше сердце Собрали картинки очаровательными зверушками, которые не оставят вас равнодушными. Милые животные от Midjourney в нашей сегодняшней подборке.
4 недели назад 2
Новинки книг! Что почитать в январе 2023 Наступил долгожданный 2023 год! Пусть год кролика будет полон интересных книг и качественных сюжетов! Настало время книжных новинок января!
4 недели назад 2
X