Estás leyendo la publicación: Este documento de inteligencia artificial (IA) propone un método novedoso para fusionar estructuras de lenguaje en una guía de difusión para la generación de texto a imagen de composicionalidad
Los modelos generativos de texto a imagen han recibido una atención significativa recientemente debido a su potencial para sintetizar imágenes de alta calidad a partir de descripciones de texto. Estos modelos tienen muchas aplicaciones potenciales, incluida la síntesis de imágenes, el aumento de datos y una mejor comprensión de la relación entre el lenguaje y la representación visual.
Varios enfoques para la generación de texto a imagen incluyen redes antagónicas generativas (GAN), codificadores automáticos variacionales (VAEs) y modelos de flujo de normalización. Estos modelos difieren en las técnicas específicas que utilizan para aprender la distribución de probabilidad de los datos. Aún así, todos tienen como objetivo capturar la estructura subyacente de los datos y generar nuevas muestras representativas del conjunto de datos original.
A pesar de su promesa, los modelos generativos de texto a imagen enfrentan varios desafíos, incluida la necesidad de modelar distribuciones complejas y variadas, entrenar en grandes conjuntos de datos y equilibrar el equilibrio entre calidad de imagen y diversidad. Los problemas, sin embargo, no se limitan a la formación. Los principales problemas en la inferencia de imágenes relacionados con los modelos generativos son la fuga de atributos, los atributos intercambiados y los objetos faltantes. Abordar los problemas mencionados anteriormente es la contribución clave de este documento.
El modelo generativo de texto a imagen de última generación es el último Stable Diffusion publicado por Open AI, también conocido por el lanzamiento reciente de la herramienta ChatGPT.
Stable Diffusion es un modelo de difusión, un modelo generativo particular que recientemente ha llamado la atención por su capacidad para sintetizar imágenes de alta calidad a partir de descripciones de texto. Opera “difundiendo” la información de la entrada de texto a través de una serie de pasos intermedios, generando finalmente una imagen final que refleja el contenido del texto. Aunque las imágenes generadas son asombrosas y contienen detalles increíbles, la inferencia es propensa a errores. Los principales problemas están relacionados con la información semántica en el texto de entrada y cómo el mecanismo de atención del texto afecta la generación de imágenes. Como se muestra en la imagen de arriba, la difusión estable presenta con frecuencia problemas en el proceso de orientación.
Los autores intentan resolver este problema mejorando el enfoque tradicional de atención al texto. De hecho, según los autores, la razón detrás de la falta de precisión semántica en Stable Diffusion es el objeto de atributo de enlace incorrecto. Por ejemplo, alimentar el modelo con el mensaje de texto “plátano rojo y manzana amarilla” podría confundir al modelo, que podría asociar el atributo “rojo” tanto con el plátano como con la manzana. La idea para resolver este problema se basa en la observación de que los mapas de atención proporcionan asociaciones token-región libres en modelos de texto a imagen. Al modificar los pares clave-valor en capas de atención cruzada, logramos mapear la codificación de cada tramo de texto en regiones atendidas en el espacio de imagen 2D.
La canalización de la arquitectura se muestra en la siguiente figura.
En primer lugar, el indicador se alimenta al analizador, cuyo objetivo es extraer una colección de conceptos del texto de entrada y colocarlos en un árbol jerárquico. Luego, las frases nominales (NP) se decodifican del árbol y se proporcionan al codificador de texto CLIP para generar incrustaciones de texto codificado. Estas incrustaciones luego se alinean con la entrada de solicitud inicial para garantizar que no falte información. El siguiente paso es la fusión con mapas de características latentes para lograr una guía sin clasificadores. Los mapas de características se fusionan con las incrustaciones de texto en capas de atención cruzada, que se utilizan para identificar las regiones 2D de la imagen para transmitir el proceso de difusión.
Este fue el resumen del enfoque generativo de texto a imagen explicado en el documento, una guía de difusión novedosa para abordar los problemas de coherencia en la generación de imágenes de la difusión estable conocida. Si estás interesado, puedes encontrar más información en los siguientes enlaces.