STABLE DIFFUSION – згенерує все

Stable Diffusion – це програмове забезпечення, яке створює зображення та відео за допомогою текстового опису  з відкритим вихідним кодом або модифікації зображень. Воно було створене та випущене у 2022 році. Над ним спільно працювали представники компаній CompVis, Runway, EleutherAI й LAION.

Архітектура Stable Diffusion 

Тут використовується модель дифузії (DM), розробленої групою вчених CompVis у LMU Munich. У 2015 році були представлені перші напрацювання. Моделі навчаються. Метою цього процесу є усунення послідовних застосувань гаусового шуму на тренувальних зображеннях, які прийнято розглядати як послідовність усунення шумів автокодерів.

Stable Diffusion  складається з :

  • Варіаційного автокодувальника (VAE) – стискає зображення з піксельного простору до меншого розмірного прихованого простору,
  • U-Net– усуває шуми на виході прямої дифузії назад, з метою отримання прихованого представлення.
  • Додаткового текстового кодувальника.

Принцип роботи Stable Diffusion 

Відкриваємо програму. У віконці «Enter your prompt» друкуємо опис зображення, наприклад, «Delicate blooming flower. Rich colors. Photo for Instagram» про делікатну квітку, яка цвіте. Після цього натискаємо  “’Generate image’.

Отримуємо готовий результат. Він має вигляд 4-ох зображень, які відрізняються одне від одного певними елементами. Процес генерації зазвичай триває від 2 до 3 хвилин. Якщо вас не влаштовує кількість отриманих картинок, то ви можете змінити їх кількість у відповідному віконці ’Advanced options’.

Час від часу можна отримати текст «This application is too busy! Try again soon» (Додаток перевантажено. Спробуйте пізніше). Це відбувається через популярність нейромережі та великої кількості відвідувачів.

Розглянемо детальніше за що відповідає кожне поле при створені зображення:

Кількість зображень. Ви можете обрати стільки, скільки захочете від запропонованих.

Steps. Цей критерій відповідає за те, скільки кроків виконає ШІ при генерації бажаного вами результату. За замовчуванням стоїть 30-50. Якщо вас влаштовує основна частина зображення, а є питання, наприклад, лише до очей, то краще не збільшувати кількість кроків, а деталізувати текст, який стосується цього аспекту.

Creativeness (Guidance Scale). Тут ШІ обирає наскільки точно він інтерпретує те, що ви написали. 2-6 – ШІ робить все, що захоче, 7-11 – візьме лише половину він вашого побажання, 12-15 – спробує використати весь ваш текст, 16+ – результат ідентичний до вашого запиту.

Resolution. Якість отриманого зображення.

Особливості генерації тексту в зображенні

Сценарій вибірки тексту в зображення у цій нейромережі називається «txt2img». Він використовує текст у якості підказки, поєднуючи його з іншими параметрами такими як: тип вибірки, розміри вихідного зображення та вихідні значення.

Зображення утворюється шляхом аналізу та інтерпретації усіх даних, які ввів користувач. Згенеровані картинки мають невидимий цифровий водяний знак, який дозволяє ідентифікувати отриманий результат, як той, що був зроблений у Stable Diffusion. Але якщо змінити його, тобто зображення, розмір, то водяний знак втрачає свою ефективність.

Модифікації готового зображення

Цікава і потрібна опція, яка дозволяє користувачу додати зображення, яке слугуватиме основою для подальших дій.

Отже, нейромережа Stable Diffusion на основі ШІ – гарна можливість для всіх користувачів відчути себе художником і створити чудові діджитал-арти.

Натисніть, щоб оцінити цю публікацію!
[Всього: 0 Середнє: 0]

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься.

7 + 2 =