
Уявіть, що ви можете створити собі світ так само просто, як пишете повідомлення другові. Просто описуєте у декілька речень – і перед вами з’являється острів, старовинне місто чи космічна станція. А головне те, що не просто подивитеся на них, а й пройдетеся вулицями, відчуєте атмосферу, взаємодіятимете з об’єктами. Genie 3 – нова модель від Google DeepMind, яка може створювати інтерактивні віртуальні 3D-світи за лічені хвилини. Про неї розкажемо більш детально далі у цій статті…
На відміну від генераторів зображень чи відео, які дають статичний або короткий кліп, Genie 3 – світова модель (world model). Вона не рендерить картинку – вона симулює логіку світу: простір, рух, взаємодію з об’єктами та наслідки дій. Користувач задає текстовий опис, а система будує динамічну сцену в якій можна навігувати у реальному часі. За офіційними даними серед ключових параметрів – це 24 fps та роздільна здатність 720p з підтримкою симуляцї світу (поки) на кілька хвилин.
До цього моменту світові моделі залишалися скоріше лабораторними демо, які швидко розсипалися при тривалій взаємодії. Genie 3 демонструє зрушення від “дивитися” до “жити всередині” симуляції – і робить це стабільно, з помітно вищою візуальною якістю, ніж у попереднього Genie 2. Саме ця реально відчутна інтерктивність підштовхує багатьох говорити про новий рівень розвитку агентних систем та навіть крок у бік СШІ/AGI.
Як це працює на практиці
Все як зазвичай у будь-яких інших ШІ – ви формулюєте підказку: “шторм над прибережною дорогою”, “Японський сад каменів”, “польоти дрона в ісландському каньйоні” – система генерує сцену та реагує на натискання клавіш або інші дії користувача. Додатково є “promptable world events”: до середини сесії можна викликати дощ, змінити освітлення, додати об’єкт чи персонажа – і симуляція підлаштовується на льоту, не руйнуючи послідовність подій.
Для чого це потрібно поза іграми
Так, очевидно це сильно допоможе розробці ігор: швидке прототипування рівнів, перевірка механік без побудови послідовності контенту, юзабіліті-тести навігації та камер. Але й не тільки, бо спектр ширший – освіта отримає живі лабораторії, де учні можуть взаємодіяти з явищами – від хвиль на воді до лавових потоків без ризиків і витрат. Робототехніка ж безмежний тренажер для агентів/роботів, які навчатимуться в найрізноманітніших умовах, перш ніж виходити у фізичний світ.
ШІ в розумі іншого ШІ
Найцікавіше починається, коли у ці світи заходять не люди, а агенти. DeepMind вже показує експерименти з власним агентом SIMA: він отримує цілі (дістатися до певної точки, зібрати предмети) та взаємодіє з Genie 3 як із повноцінним середовищем. Це буквально “один ШІ грає в уявному світі іншого” – ідеальна пісочниця для навчання.
Порівняно з попередніми моделями ця тримає цілісність сцени довше, природніше поводиться вода-світло-матеріали, адекватніше реагує на дії – переходи між об’єктами, поява перешкод чи зміна погоди не ламає світ. Для користувача це означає, що експерименти, тести й демо перестають бути 30-секундними кліпами і перетворюються на повноцінні короткі сесії.
Але межі поки що є…
Розробники прямо визнають: текст рендериться не завжди читабельно; імітація точних реальних локацій нашого світу – поза межами можливостей; тривалість взаємодії – хвилини, а не години. Діапазон дій, які може виконувати саме агент також обмежений – частину подій доводиться підказувати. Ці застереження важливі – прототипи ок, але от для реальних продуктів потрібно це все ще допрацьовувати. У будь-якому випадку найближчим часом з’являться майбутні версії Genie, які це все виправлять/покращать.
На сьогодні Genie 3 відкрили обмеженому колу дослідників та кріейторів у форматі research preview, щоб зібрати фідбек і відпрацювати безпекові протоколи. Розширений доступ всім бажаючим нададуть поступово, коли команда на 100% впевниться, що це можна випустити, пофіксивши всі нюанси.
Генерація світів у реальному часі – не ще одна фішка генеративного ШІ, а абсолютно нова мова взаємодії з цифровими середовищами. Genie 3 показує, що ця мова вже на відстані витягнутої руки…