С релизом MusicLM в январе 2023 года стало ясно: нейросети изменят музыкальную индустрию. А месяц назад была опубликована новая масштабная ИИ-модель для создания аудиозаписей. В этой статье мы рассмотрим, что такое AudioGPT, что он умеет и как им пользоваться.
Что такое AudioGPT?
AudioGPT — это исследовательский проект группы китайских и американских ученых, опубликованный в апреле 2023 года. По сути, это эффективный диалоговый аудио помощник, который имеет доступ к ряду инструментов для выполнения задач, связанных с генерацией речи, музыкальных композиций и пением. Что же эта нейросеть умеет делать и как она связана с моделями GPT?
AudioGPT — диалоговый помощник
AudioGPT может работать в интерфейсе чат-бота, аналогичного ChatGPT. Отличительной особенностью этой нейросети является то, что, помимо текста, она может обрабатывать вашу речь в качестве входного запроса (текстового запроса), предварительно транскрибируя аудио в текст. Таким образом, перед вами действительно отличный собеседник, с которым вы можете общаться или переписываться, в зависимости от ваших пожеланий.
AudioGPT может решать различные задачи, связанные со звуком
Возможность ведения диалога в AudioGPT является лишь вспомогательной функцией. Его основная цель — дать пользователям возможность использовать инструмент для решения широкого спектра задач по анализу и созданию аудио.
Изображение в аудио: Генерирование аудио из изображений
- Преобразование стилей. Генерирование человеческой речи с использованием речевых стилей, полученных из базы данных.
- Улучшение речи. Улучшение качества речи посредством снижения фонового шума.
- Сепарация речи. Разделение речи нескольких дикторов.
- Преобразование моносигнала в бинауральный звук. Генерирование бинаурального аудио из монофонического.
Audio-to-Event (генерация аудио в элемент)
- Извлечение звуков. Выборочное извлечение фрагментов звуков из аудио.
- Обнаружение звуков. Определение хронологии звуковых элементов в аудио.
Audio-to-Video (генерация аудио в видео)
- Создание «говорящей головы». Генерирование видео с «говорящей головой человека» на основе входного аудио (вашего запроса).
Text-to-Audio (генерация текста в аудио)
- Преобразование текста в речь. Генерирование человеческой речи на основе введенного пользователем текста.
- Генерирование текста в аудио. Создание аудиозаписей по текстовому описанию пользователя.
Image-to-Audio (генерация изображения в аудио)
- Генерация аудио из изображений.
Score-to-Audio (преобразование партитуры в аудио)
- Синтез пения. Генерирование голоса певца/певицы по введенному текстовому запросу.
Как был реализован AudioGPT?
Хотя AudioGPT может показаться пользователям типичным чат-ботом с искусственным интеллектом, на самом деле под его капотом скрывается гораздо больше. Так, AI чат-бота (ChatGPT) используется только в качестве переводчика между запросом пользователя и другой моделью AI. Такой подход уже используется в других областях, например, для работы с изображениями (TaskMatrix) или текстом (LangChain).
ChatGPT берет на себя функцию ввода текста и пытается интерпретировать запрос пользователя, поскольку он является своего рода экспертом в понимании альтернативных формулировок одной и той же проблемы и сопоставляет запрос с конкретной задачей. В данном контексте — создание аудио из текста. Как только ChatGPT распознает запрос, он выбирает подходящую ИИ-модель из текущего набора моделей (сейчас у AudioGPT в наличии 17 моделей). Каждая из этих 17 моделей отвечает за выполнение одного конкретного действия. Поэтому очень важно, чтобы ChatGPT понял запрос, нашел соответствующую модель и передал запрос пользователя таким образом, чтобы модель могла его выполнить.
Когда подходящая модель будет найдена и запущена, она выдаст результат. Он может быть в различных форматах (аудио, текст, изображение, видео). Здесь на помощь снова приходит ChatGPT. Он собирает выходные данные модели и предоставляет их пользователю в понятном и интерпретируемом формате. Что действительно отличает эту нейросеть от работы с чат-ботом, так это способность AudioGPT анализировать полную историю разговора. Это означает, что вы всегда можете вернуться к прошлым запросам и попросить AudioGPT изменить их.
Ограничения AudioGPT
В контексте данной статьи важно отметить, что AudioGPT в настоящее время не является идеальным инструментом для анализа или создания музыки. Модель синтеза голоса певца/певицы — это единственная полноценная музыкальная модель. Другие модели могут производить музыкальные звуки, но они предназначены в основном для создания отдельных элементов речи и звуков, а не музыки.
Однако это само по себе не является ограничением модели. Отчасти это связано с решением разработчиков не включать в данное приложение более специализированные музыкальные ИИ-модели. Используя AudioGPT в качестве базы, можно включить в эту модель множество аудиозаписей и создать отдельную, специализированную нейросеть, которая будет генерировать музыку.
Как скачать AudioGPT?
1. Перейдите на сайт OpenAI. Жителям России и Беларуси, чтобы посетить сайт компании, нужно воспользоваться любым удобным VPN сервисом. Зарегистрируйтесь на платформе. Для этого вам понадобиться ваша почта Google и виртуальный номер телефона (о том, как зарегистрироваться на OpenAI и получить доступ ко всем инструментам платформы читайте здесь). После регистрации выберите вкладку «API».
2. В новом окне нажмите на свою иконку в правом верхнем углу. Появится выпадающее меню. Выберите пункт «View API keys».
3. На новой странице нажмите на вкладку «Create new secret key». В следующем окне еще раз нажмите кнопку «Create new secret key». В окошке появится ключ, состоящий из цифр и латинских букв.
4. Перейдите на сайт Hugging Face и вставьте ключ в специальное поле.
5. Через пару секунд внизу поля для генерации появятся значки интерфейса — можете генерировать свой музыкальный контент!
А перейдя по этой ссылке вы можете найти текстовые подсказки, которые помогут вам генерировать аудио. Также вы можете скачать AudioGPT на ресурсе GitHub.
Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.