Estás leyendo la publicación: Modelos de difusión: del arte al estado del arte
Los modelos de difusión han ganado popularidad en los últimos meses. Estos modelos generativos han podido superar a los GAN en la síntesis de imágenes con herramientas lanzadas recientemente como DALL.E2 de OpenAI o Stable Diffusion and Midjourney de StabilityAI.
Recientemente, DALL-E presentó Outpainting, una nueva función que permite a los usuarios expandir los bordes originales de una imagen, agregando elementos visuales del mismo estilo mediante indicaciones de descripción en lenguaje natural.
Fundamentalmente, los modelos de generación que funcionan con el método de difusión pueden generar imágenes primero aleatorizando los datos de entrenamiento agregando ruido gaussiano y luego recuperando los datos invirtiendo el proceso de ruido. El modelo probabilístico de difusión (modelo de difusión) es una cadena de Markov parametrizada entrenada usando diferentes inferencias para producir imágenes que coincidan con los datos después de un tiempo determinado.
El Génesis
La síntesis de imágenes surgió en 2015 cuando Google Research anunció el modelo de difusión de superresolución (SR3) que podía tomar imágenes de entrada de baja resolución y usar el modelo de difusión para crear salidas de alta resolución sin perder ninguna información. Esto funcionó agregando gradualmente ruido puro a la imagen de alta resolución y luego eliminándolo progresivamente con la guía de la imagen de baja resolución de entrada.
El modelo de difusión condicional de clase (CDM) se entrena en datos de ImageNet para crear imágenes de alta resolución. Estos modelos ahora forman la base de los modelos de difusión de texto a imagen para proporcionar imágenes de alta calidad.
El auge de los modelos de texto a imagen
Lanzado en 2021, DALL.E2 se desarrolló con la idea del aprendizaje de disparo cero. En este método, el modelo de texto a imagen se entrena con miles de millones de imágenes con su título incrustado. Aunque el código aún no está abierto, DALL.E2 se anunció simultáneamente con CLIP (Contrastive Language-Image Pre-training), que se entrenó en 400 millones de imágenes con texto, extraídas directamente de Internet.
El mismo año, OpenAI lanzó GLIDE, que genera imágenes fotorrealistas con modelos de difusión guiados por texto. La técnica de guía CLIP de DALL.E2 puede generar imágenes diversas pero en juego la alta fidelidad. Para lograr el fotorrealismo, GLIDE utiliza una guía sin clasificador, que agrega la capacidad de editar además de la generación de disparos cero.
GLIDE, después del entrenamiento en métodos de difusión condicional de texto, se ajusta para la generación de imágenes incondicionales reemplazando el token de texto de entrenamiento con secuencias vacías. De esta forma, el modelo puede conservar su capacidad de generar imágenes incondicionalmente junto con salidas dependientes del texto.
Por otro lado, Imagen de Google amplía un gran modelo de lenguaje transformador (LM) y comprende el texto para combinarlo con modelos de difusión de alta fidelidad como GLIDE, métodos probabilísticos de difusión sin ruido y modelos de difusión en cascada. Esto da como resultado la producción de imágenes fotorrealistas con un nivel profundo de comprensión del lenguaje en la síntesis de texto a imagen.
Recientemente, Google amplió Imagen con DreamBooth, que no es solo un generador de texto a imagen, sino que permite cargar un conjunto de imágenes para cambiar el contexto. Esta herramienta analiza el tema de la imagen de entrada, lo separa del contexto o entorno y lo sintetiza en un nuevo contexto deseado con alta fidelidad.
Los modelos de difusión latente, utilizados por Stable Diffusion, emplean un método similar a la incrustación CLIP para la generación de imágenes, pero también pueden extraer información de una imagen de entrada. Por ejemplo, una imagen inicial se codificará en un espacio ya denso en información llamado espacio latente. Similar a GAN, este espacio extraerá información relevante del espacio y reducirá su tamaño mientras conserva la mayor cantidad de información posible.
Ahora, con el condicionamiento, cuando ingresa contexto, que puede ser texto o imágenes, y los fusiona en el espacio latente con su imagen de entrada, el mecanismo comprenderá la mejor manera de moldear la imagen en la entrada de contexto y preparar el ruido inicial para el proceso de difusión. Similar a Imagen, ahora el proceso consiste en decodificar el mapa de ruido generado para construir una imagen final de alta resolución.
Futuro perfecto (imágenes)
La capacitación, el muestreo y la evaluación de datos han permitido que los modelos de difusión sean más manejables y flexibles. Aunque hay mejoras importantes en la generación de imágenes con modelos de difusión sobre GAN, VAE y modelos basados en flujo, se basan en la cadena de Markov para generar muestras, lo que lo hace más lento.
Si bien OpenAI ha estado corriendo hacia la herramienta de generación de imágenes perfecta, ha habido un gran salto en la creación de múltiples modelos de difusión, donde utilizan varios métodos para mejorar la calidad de la salida, además de aumentar la fidelidad, mientras reducen el tiempo de renderizado. . Esto incluye Imagen de Google, ‘Make-A-Scene’ de Meta, Stable Diffusion, Midjourney, etc.
Además, los modelos de difusión son útiles para la compresión de datos, ya que reducen las imágenes de alta resolución en Internet global, lo que permite una mayor accesibilidad para la audiencia. Todo esto llevará eventualmente a que los modelos de difusión sean viables para usos creativos en el arte, la fotografía y la música.