Штучний інтелект без спотворень: нова технологія вдосконалює генерацію нестандартних зображень
Джерело: techxplore.com
Науковці з Університету Райса запропонували новий метод створення зображень за допомогою попередньо навчених дифузійних моделей. Цей клас генеративних моделей ШІ “навчається” шляхом додавання шар за шаром випадкового шуму до зображень, на яких вони тренуються, а потім створюють нові зображення, видаляючи доданий шум. Цей підхід може допомогти виправити проблеми, пов’язані з неправильною генерацією зображень.
Моаєд Хаджі Алі, аспірант кафедри комп’ютерних наук Університету Райса, описав новий підхід під назвою ElasticDiffusion у рецензованій статті, представленій на конференції Інституту інженерів електротехніки та електроніки (IEEE) 2024 з комп’ютерного зору та розпізнавання образів (CVPR) у Сіетлі.
“Дифузійні моделі, такі як Stable Diffusion, Midjourney та DALL-E, створюють вражаючі результати, генеруючи досить реалістичні та фотореалістичні зображення,” — сказав Хаджі Алі. “Але вони мають слабкість: вони можуть генерувати лише квадратні зображення. Тому у випадках, коли потрібні інші співвідношення сторін, наприклад, для монітора чи смарт-годинника, ці моделі стають проблемними.”
Якщо задати моделі, такій як Stable Diffusion, створити неквадратне зображення, наприклад, зі співвідношенням сторін 16:9, елементи зображення починають повторюватися, що призводить до дивних спотворень, таких як людина з шістьма пальцями чи надмірно витягнутий автомобіль.
Хаджі Алі пояснює, що цифровий шум, який використовують дифузійні моделі, можна перекласти у сигнал двох типів: локальний та глобальний. Локальний сигнал містить інформацію на рівні пікселів, наприклад, форму ока чи текстуру шерсті собаки. Глобальний сигнал містить загальний контур зображення.
“Одна з причин, чому дифузійні моделі мають труднощі з неквадратними співвідношеннями сторін, полягає в тому, що вони зазвичай об’єднують локальну та глобальну інформацію разом,” — пояснює Хаджі Алі.
Метод ElasticDiffusion відділяє локальні та глобальні сигнали в умовні та безумовні шляхи генерації. Потім умовна модель віднімається з безумовної, отримуючи оцінку, яка містить глобальну інформацію про зображення. Після цього безумовний шлях з деталями на рівні пікселів застосовується до зображення по квадрантах, заповнюючи деталі квадрат за квадратом. Глобальна інформація (співвідношення сторін зображення, що саме зображено) залишається окремо, щоб уникнути повторень та помилок.
“Цей підхід є успішною спробою використати проміжні уявлення моделі для досягнення глобальної узгодженості,” — зазначив Вісенте Ордоеньєс-Роман, який консультував Хаджі Алі у його роботі.
Єдиним недоліком ElasticDiffusion порівняно з іншими дифузійними моделями є час. Наразі на створення зображення за методом Хаджі Алі потрібно у 6-9 разів більше часу. Мета дослідників — зменшити цей час до рівня моделей, таких як Stable Diffusion або DALL-E.
“Я сподіваюся, що це дослідження допоможе нам зрозуміти, чому дифузійні моделі генерують повторювані елементи і не можуть адаптуватися до різних співвідношень сторін,” — сказав Хаджі Алі.
Notice: Undefined variable: readAlsoLabel in /home/socport/obukhiv.info/www/site/templates/blocks/BlockTypeRelated/rss.php on line 3
- Штучний інтелект проти теорій змови: чи може розмова з чат-ботом змінити мислення?
- Штучний інтелект прискорює кліматичну кризу: причина у високих енерговитратах
- Штучний інтелект допоможе вирішити «напругу Хаббла» та розкрити таємниці Всесвіту
- Що таке «клік-фрод» і як йому запобігти?
- Шість вимерлих видів, які науковці можуть відродити найближчими роками