Главная ∕ Нейросети

AudioGPT: нейросеть, генерирующая музыку и речь

Skipper — 07.06.2023

С релизом MusicLM в январе 2023 года стало ясно: нейросети изменят музыкальную индустрию. А месяц назад была опубликована новая масштабная ИИ-модель для создания аудиозаписей. В этой статье мы рассмотрим, что такое AudioGPT, что он умеет и как им пользоваться.

Что такое AudioGPT?

AudioGPT — это исследовательский проект группы китайских и американских ученых, опубликованный в апреле 2023 года. По сути, это эффективный диалоговый аудио помощник, который имеет доступ к ряду инструментов для выполнения задач, связанных с генерацией речи, музыкальных композиций и пением. Что же эта нейросеть умеет делать и как она связана с моделями GPT?

AudioGPT — диалоговый помощник

AudioGPT может работать в интерфейсе чат-бота, аналогичного ChatGPT. Отличительной особенностью этой нейросети является то, что, помимо текста, она может обрабатывать вашу речь в качестве входного запроса (текстового запроса), предварительно транскрибируя аудио в текст. Таким образом, перед вами действительно отличный собеседник, с которым вы можете общаться или переписываться, в зависимости от ваших пожеланий.

AudioGPT может решать различные задачи, связанные со звуком

Возможность ведения диалога в AudioGPT является лишь вспомогательной функцией. Его основная цель — дать пользователям возможность использовать инструмент для решения широкого спектра задач по анализу и созданию аудио.

Изображение в аудио: Генерирование аудио из изображений

Преобразование стилей. Генерирование человеческой речи с использованием речевых стилей, полученных из базы данных.
Улучшение речи. Улучшение качества речи посредством снижения фонового шума.
Сепарация речи. Разделение речи нескольких дикторов.
Преобразование моносигнала в бинауральный звук. Генерирование бинаурального аудио из монофонического.

Audio-to-Event (генерация аудио в элемент)

Извлечение звуков. Выборочное извлечение фрагментов звуков из аудио.
Обнаружение звуков. Определение хронологии звуковых элементов в аудио.

Audio-to-Video (генерация аудио в видео)

Создание «говорящей головы». Генерирование видео с «говорящей головой человека» на основе входного аудио (вашего запроса).

Text-to-Audio (генерация текста в аудио)

Преобразование текста в речь. Генерирование человеческой речи на основе введенного пользователем текста.
Генерирование текста в аудио. Создание аудиозаписей по текстовому описанию пользователя.

Image-to-Audio (генерация изображения в аудио)

Генерация аудио из изображений.

Score-to-Audio (преобразование партитуры в аудио)

Синтез пения. Генерирование голоса певца/певицы по введенному текстовому запросу.

Как был реализован AudioGPT?

Хотя AudioGPT может показаться пользователям типичным чат-ботом с искусственным интеллектом, на самом деле под его капотом скрывается гораздо больше. Так, AI чат-бота (ChatGPT) используется только в качестве переводчика между запросом пользователя и другой моделью AI. Такой подход уже используется в других областях, например, для работы с изображениями (TaskMatrix) или текстом (LangChain).

ChatGPT берет на себя функцию ввода текста и пытается интерпретировать запрос пользователя, поскольку он является своего рода экспертом в понимании альтернативных формулировок одной и той же проблемы и сопоставляет запрос с конкретной задачей. В данном контексте — создание аудио из текста. Как только ChatGPT распознает запрос, он выбирает подходящую ИИ-модель из текущего набора моделей (сейчас у AudioGPT в наличии 17 моделей). Каждая из этих 17 моделей отвечает за выполнение одного конкретного действия. Поэтому очень важно, чтобы ChatGPT понял запрос, нашел соответствующую модель и передал запрос пользователя таким образом, чтобы модель могла его выполнить.

Когда подходящая модель будет найдена и запущена, она выдаст результат. Он может быть в различных форматах (аудио, текст, изображение, видео). Здесь на помощь снова приходит ChatGPT. Он собирает выходные данные модели и предоставляет их пользователю в понятном и интерпретируемом формате. Что действительно отличает эту нейросеть от работы с чат-ботом, так это способность AudioGPT анализировать полную историю разговора. Это означает, что вы всегда можете вернуться к прошлым запросам и попросить AudioGPT изменить их.

Ограничения AudioGPT

В контексте данной статьи важно отметить, что AudioGPT в настоящее время не является идеальным инструментом для анализа или создания музыки. Модель синтеза голоса певца/певицы — это единственная полноценная музыкальная модель. Другие модели могут производить музыкальные звуки, но они предназначены в основном для создания отдельных элементов речи и звуков, а не музыки.

Однако это само по себе не является ограничением модели. Отчасти это связано с решением разработчиков не включать в данное приложение более специализированные музыкальные ИИ-модели. Используя AudioGPT в качестве базы, можно включить в эту модель множество аудиозаписей и создать отдельную, специализированную нейросеть, которая будет генерировать музыку.

Как скачать AudioGPT?

1. Перейдите на сайт OpenAI. Жителям России и Беларуси, чтобы посетить сайт компании, нужно воспользоваться любым удобным VPN сервисом. Зарегистрируйтесь на платформе. Для этого вам понадобиться ваша почта Google и виртуальный номер телефона (о том, как зарегистрироваться на OpenAI и получить доступ ко всем инструментам платформы читайте здесь). После регистрации выберите вкладку «API».

2. В новом окне нажмите на свою иконку в правом верхнем углу. Появится выпадающее меню. Выберите пункт «View API keys».

3. На новой странице нажмите на вкладку «Create new secret key». В следующем окне еще раз нажмите кнопку «Create new secret key». В окошке появится ключ, состоящий из цифр и латинских букв.

4. Перейдите на сайт Hugging Face и вставьте ключ в специальное поле.

5. Через пару секунд внизу поля для генерации появятся значки интерфейса — можете генерировать свой музыкальный контент!

А перейдя по этой ссылке вы можете найти текстовые подсказки, которые помогут вам генерировать аудио. Также вы можете скачать AudioGPT на ресурсе GitHub.