У Midjourney и других нейросетей для генерации картинок, все очень плохо с изображением рук, пальцев и других конечностей. Разбираемся, почему же искусственный интеллект до сих пор не научился правильно рисовать руки.
Сложная и изменчивая форма
Одной из самых больших проблем при создании реалистичных изображений с помощью нейронных сетей является моделирование сложной 3D-геометрии рук. Это связано с высоким уровнем детализации, а также изменчивостью формы и положений конечностей человека.
Одним из способов решения этой проблемы является включение предварительных знаний о геометрии рук и конечностей в архитектуру нейронной сети. Например, в некоторых моделях используются специализированные модули, предназначенные для улавливания геометрической структуры рук и пальцев, а в других — ограничения или штрафы, побуждающие генерируемые изображения соответствовать определенным геометрическим свойствам.
Другой подход заключается в использовании генеративных состязательных сетей (GAN). Они состоят из двух частей: генератора, создающего изображения, и дискриминатора, который пытается отличить реальные изображения от созданных. Обучив генератор создавать изображения, неотличимые от реальных, GAN могут создавать более реалистичные и анатомически точные руки.
Недостаток изображений или недостаточное количество обучающих данных тоже может внести свой вклад в проблему генерации рук в нейронных сетях для генерации изображений. Тренировочные данные, используемые для обучения этих моделей, должны быть разнообразными и охватывать широкий спектр сценариев, поз и условий освещения. Это гарантирует, что полученная модель способна генерировать высококачественные изображения, точно отражающие реальный мир.
Иногда имеющиеся данные для обучения могут не включать достаточное количество примеров рук в различных позах. Из-за этого нейросети будет сложно генерировать реалистично выглядящие руки и конечности. Это может существенно повлиять на общее качество генерируемых изображений.
Отсутствие референсов
Еще одна причина плохой генерации рук: отсутствие фотографий людей в полный рост в датасетах. Нейросети достаточно хорошо научились рисовать лица, одежду, тела и пейзажи, но когда на картинке появляются руки, то сгенерированные изображения можно легко отличить от работы реального художника.
В процессе исследования данного явления, компания Stability AI, занимающаяся разработкой нейросетей, сообщила, что для обучения ИИ-художников используются масштабные датасеты, состоящие из десятков миллионов изображений. Чем больше в датасетах присутствует частей человеческого тела, тем лучше нейросеть будет рисовать человека. Но проблема заключается в том, что на фотографиях руки не являются главным объектом съемки, и обычно на исходных изображениях занимают мало места. Также, руки довольно редко бывают сфотографированы крупным планом.
Некоторые фото рук, которые есть в датасетах, могут быть не самого высокого качества и изображать лишь отдельные пальцы кисти. Если нейросеть получает много таких фотографий, то она начинает думать, что именно так и должны выглядеть руки. Для того чтобы улучшить работу нейросетей с изображениями рук, нужно дополнительное обучение, которое позволит им не только узнавать внешний вид рук, но и также понимать, как они функционируют и какие ограничения существуют у человеческих конечностей.
Кроме того, руки и конечности представляют собой сложные структуры. Точное моделирование их в двумерном изображении может оказаться сложной задачей для любой нейронной сети. Это может привести к тому, что модель будет генерировать нереалистичные руки даже при наличии достаточного количества обучающих данных.
Исследования в этой области продолжаются. Разрабатываются новые методы и технологии для улучшения способности нейронных сетей генерировать реалистичные изображения рук. Так что в ближайшем будущем, AI обязательно справится с этой задачей.
Почитать другие статьи о нейросетях можно в этом разделе.
Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.