
Imagina que puedes crear un mundo para ti tan fácilmente como escribes un mensaje a un amigo. Sólo tienes que describirlo en unas pocas frases, y una isla, una ciudad antigua o una estación espacial aparecen ante ti. Y lo que es más, no sólo puedes mirarlos, sino también caminar por las calles, sentir la atmósfera e interactuar con los objetos. Genie 3 es un nuevo modelo de Google DeepMind que puede crear mundos virtuales 3D interactivos en cuestión de minutos. Te contaremos más sobre él más adelante en este artículo…
A diferencia de los generadores de imagen o vídeo que producen un clip estático o corto, Genie 3 es un modelo del mundo. No genera una imagen, sino que simula la lógica del mundo: el espacio, el movimiento, la interacción con los objetos y las consecuencias de las acciones. El usuario establece una descripción textual, y el sistema construye una escena dinámica por la que se puede navegar en tiempo real. Según los datos oficiales, los parámetros clave incluyen 24 fps y resolución 720p con soporte para simular el mundo (por ahora) durante varios minutos.
Hasta ahora, los modelos del mundo se parecían más a maquetas de laboratorio que se desmoronan rápidamente con una interacción prolongada. Genie 3 demuestra un cambio de “mirar” a “vivir dentro” de la simulación, y lo hace de forma consistente, con una calidad visual notablemente superior a la del anterior Genie 2. Es esta interactividad tangible la que lleva a muchos a hablar de un nuevo nivel de desarrollo de los sistemas de agentes e incluso de un paso hacia la IA/AGI.
Cómo funciona en la práctica
Todo es como siempre con cualquier otra IA: formula una pista: “tormenta sobre la carretera costera”, “jardín de rocas japonés“, “vuelos de drones en un cañón islandés” – el sistema genera una escena y responde a las pulsaciones de teclas u otras acciones del usuario. Además, hay “acontecimientos del mundo provocables”: en mitad de la sesión, puedes hacer que llueva, cambiar la iluminación, añadir un objeto o un personaje… y la simulación se ajusta sobre la marcha sin destruir la secuencia de acontecimientos.
Por qué lo necesitas fuera de los juegos
Sí, obviamente ayudará mucho al desarrollo de juegos: prototipado rápido de niveles, pruebas de mecánicas sin construir una secuencia de contenidos, pruebas de usabilidad de la navegación y las cámaras. Pero no sólo eso, porque el espectro es más amplio: la educación obtendrá laboratorios vivientes donde los alumnos podrán interactuar con fenómenos que van desde las olas en el agua hasta los flujos de lava sin riesgos ni costes. La robótica es un simulador ilimitado para agentes/robots que aprenderán en diversas condiciones antes de entrar en el mundo físico.
La IA en la mente de otra IA
La diversión comienza cuando los agentes, no las personas, entran en estos mundos. DeepMind ya está mostrando experimentos con su propio agente SIMA: recibe objetivos (alcanzar un punto determinado, recoger objetos) e interactúa con Genie 3 como un entorno de pleno derecho. Se trata literalmente de “una IA jugando en el mundo imaginario de otra”: un cajón de arena perfecto para el aprendizaje.
En comparación con los modelos anteriores, éste mantiene la integridad de la escena durante más tiempo, se comporta de forma más natural con el agua y los materiales ligeros, y responde más adecuadamente a las acciones: las transiciones entre objetos, obstáculos o cambios meteorológicos no rompen el mundo. Para el usuario, esto significa que los experimentos, pruebas y demostraciones dejan de ser clips de 30 segundos y se convierten en sesiones cortas en toda regla.
Pero sigue habiendo límites…
Los desarrolladores admiten directamente que el texto no siempre es legible; imitar las localizaciones exactas de nuestro mundo está fuera del alcance de la aplicación; la duración de la interacción es de minutos, no de horas. La gama de acciones que puede realizar el agente también es limitada: algunos eventos tienen que ser provocados. Estas advertencias son importantes: los prototipos están bien, pero para los productos reales, aún hay que perfeccionarlos. En cualquier caso, pronto saldrán futuras versiones de Genie que arreglarán/mejorarán todo esto.
Hoy, Genie 3 se ha abierto a un número limitado de investigadores y creadores en el formato de vista previa de investigación para recoger opiniones y elaborar protocolos de seguridad. El acceso ampliado se proporcionará a todo el mundo gradualmente, cuando el equipo esté 100% seguro de que se puede liberar, una vez solucionados todos los matices.
La generación de mundos en tiempo real no es sólo una característica más de la IA generativa, sino un lenguaje totalmente nuevo para interactuar con los entornos digitales. Genie 3 demuestra que este lenguaje ya está al alcance de la mano…