DIFUSIÓN ESTABLE – genera todo

Stable Diffusion es un software que crea imágenes y vídeos mediante la descripción de texto o la modificación de imágenes de código abierto. Fue creado y lanzado en 2022. Representantes de CompVis, Runway, EleutherAI y LAION trabajaron juntos en él.

Arquitectura de difusión estable

Utiliza el modelo de difusión (DM) desarrollado por el equipo CompVis de la LMU de Múnich. En 2015 se presentaron los primeros avances. Los modelos están aprendiendo. El objetivo de este proceso es eliminar sucesivas aplicaciones de ruido gaussiano en las imágenes de entrenamiento, lo que se considera comúnmente como la secuencia de eliminación de ruido del autoencoder.

La difusión estable consiste en:

  • Autocodificador variacional (VAE): comprime la imagen desde el espacio de píxeles a un espacio latente de menor dimensión,
  • U-Net– elimina el ruido de la salida de la difusión hacia atrás para obtener una representación oculta.
  • Un codificador de texto adicional.


Cómo funciona

Difusión estable

Abre la aplicación. En la ventana “Escriba su mensaje”, escriba una descripción de la imagen, por ejemplo: “Delicada flor en flor. Colores vivos. Foto para Instagram” sobre una delicada flor. A continuación, haga clic en “Generar imagen”.

Obtenemos el resultado final. Parecen 4 imágenes que difieren entre sí en ciertos elementos. El proceso de generación suele durar de 2 a 3 minutos. Si no está satisfecho con el número de imágenes que recibe, puede modificarlo en la ventana “Opciones avanzadas”.

De vez en cuando, puede recibir el texto “¡Esta aplicación está demasiado ocupada! Vuelva a intentarlo pronto”. Esto se debe a la popularidad de la red neuronal y al gran número de visitantes.

Veamos con más detalle de qué es responsable cada campo al crear una imagen:

Número de imágenes. Puedes elegir tantos como quieras.

Pasos. Este criterio es el responsable de cuántos pasos dará la IA para generar el resultado deseado. El ajuste por defecto es 30-50. Si está satisfecho con la parte principal de la imagen, pero tiene dudas, por ejemplo, sólo sobre los ojos, es mejor no aumentar el número de pasos, sino detallar el texto que se refiere a este aspecto.

Creatividad (escala orientativa). Aquí es donde la IA elige la precisión con la que interpreta lo que has escrito. 2-6 – la IA hace lo que quiere, 7-11 – tomará sólo la mitad de tu petición, 12-15 – intentará usar todo tu texto, 16+ – el resultado es idéntico a tu petición.

Resolución. La calidad de la imagen resultante.

Características de la generación de texto en una imagen

El escenario de conversión de texto a imagen en esta red neuronal se denomina “txt2img”. Utiliza el texto como pista, combinándolo con otros parámetros como el tipo de muestra, las dimensiones de la imagen de salida y los valores de salida.

La imagen se crea analizando e interpretando todos los datos introducidos por el usuario. Las imágenes generadas llevan una marca de agua digital invisible que permite identificar el resultado como producido en Stable Diffusion. Pero si la cambias, es decir, la imagen, el tamaño, la marca de agua pierde su eficacia.

Modificar la imagen acabada

Una opción interesante y necesaria que permite al usuario añadir una imagen que servirá de base para acciones posteriores.

Así, la red neuronal de difusión estable basada en IA es una buena oportunidad para que todos los usuarios se sientan artistas y creen grandes obras de arte digital.

Натисніть, щоб оцінити цю публікацію!
[Всього: 0 Середнє: 0]

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

5 + 4 =