Estás leyendo la publicación: Conozca GLIGEN: un enfoque de IA que amplía la funcionalidad de los modelos de difusión de texto a imagen preentrenados existentes al habilitar el acondicionamiento en las entradas de conexión a tierra
Dado que se han utilizado millones de emparejamientos de imagen y texto para entrenar modelos de difusión, solo tiene sentido preguntar si pueden agregar modalidades de entrada condicional adicionales a los modelos que ya han sido entrenados previamente. De manera similar a la literatura de reconocimiento, al usar modelos previamente entrenados para obtener un mayor control sobre los modelos actuales de generación de texto a imagen, pueden mejorar el rendimiento en otras tareas de generación debido al amplio conocimiento de concepto que poseen. Con los objetivos anteriores en mente, proporcionan una técnica para proporcionar entradas condicionales nuevas y fundamentadas a modelos de difusión de texto a imagen entrenados. Como se ve en la Figura 1, continúan aceptando la leyenda de texto como entrada mientras habilitan otras modalidades de entrada, incluida la conexión a tierra de puntos clave, imágenes de referencia de conexión a tierra y cuadros delimitadores de ideas de conexión a tierra.
Figura 1: Al alimentar varias condiciones de conexión a tierra a un modelo de generación de texto a imagen congelado, GLIGEN permite capacidades de conexión a tierra flexibles. GLIGEN admite la entidad de texto + cuadro, la entidad de imagen + cuadro, el estilo de imagen y el cuadro de texto + y la entidad de texto + puntos clave. Los ejemplos producidos de cada escenario se muestran en las posiciones superior izquierda, superior derecha, inferior izquierda e inferior derecha, respectivamente.
El método en el que se puede transmitir la información está limitado por la entrada actual, que es solo lenguaje natural. Por ejemplo, es un desafío transmitir la ubicación exacta de un objeto usando texto, pero los cuadros delimitadores y los puntos clave lo hacen posible, como se ve en la Figura 1. Hay modelos de difusión condicional y GAN para pintar, crear layout2img, etc., que aceptan entradas. que no sean texto, pero rara vez combinan tales entradas para controlar la producción de text2img. Además, los modelos generativos anteriores a menudo se entrenan individualmente en cada conjunto de datos específico de la tarea, independientemente de la familia del modelo generativo. Por el contrario, el enfoque tradicional en el área de reconocimiento ha sido desarrollar un modelo de reconocimiento específico de la tarea a partir de un modelo básico que ha sido entrenado previamente en una gran cantidad de datos de imágenes o emparejamientos de imagen y texto.
¿Pueden basarse en modelos de difusión ya entrenados y proporcionarles nuevas modalidades de entrada condicional, dado que han sido entrenados en miles de millones de pares de imagen y texto? Debido a la extensa información de concepto que poseen los modelos preentrenados, y de manera similar a la literatura de reconocimiento, pueden mejorar el rendimiento en otras tareas de generación al tiempo que obtienen más control sobre los modelos actuales de generación de texto a imagen. Proporcionan una técnica para proporcionar entradas condicionales nuevas y fundamentadas a modelos de difusión de texto a imagen entrenados para lograr los objetivos mencionados anteriormente. Como se ve en la Figura 1, además de habilitar modalidades de entrada alternativas como poner a tierra puntos clave de partes, poner a tierra imágenes de referencia y poner a tierra cuadros delimitadores para colocar ideas, también mantienen la leyenda de texto como entrada.
El principal problema es aprender a incorporar nueva información de conexión a tierra manteniendo el conocimiento del concepto amplio original en el modelo preentrenado. Sugieren congelar los pesos del modelo anterior y agregar nuevas capas de transformadores controlados entrenables que usen la nueva entrada de conexión a tierra para evitar el olvido del conocimiento (por ejemplo, el cuadro delimitador). Usando un enfoque controlado, incorporan progresivamente los nuevos datos de puesta a tierra en el modelo preentrenado durante el entrenamiento. Es posible generar resultados de generación que reflejen con precisión las condiciones de puesta a tierra mientras se tiene una alta calidad de imagen usando el modelo completo (todas las capas) en la primera mitad de los pasos de muestreo y usando solo las capas originales (sin las capas del transformador controlado) en el la segunda mitad. Esta arquitectura ofrece flexibilidad en el procedimiento de muestreo durante la generación para una mejor calidad y capacidad de control.
Se enfocan en la generación de text2img basada en la utilización de cuadros delimitadores en sus investigaciones debido al reciente éxito de escalado del aprendizaje de modelos de comprensión de lenguaje e imagen basados en cajas en GLIP. Introducen los tokens codificados en las capas recién agregadas con su información de posición codificada utilizando el mismo codificador de texto preentrenado (para codificar el título) para codificar cada frase asociada con cada elemento conectado a tierra (es decir, una frase por cuadro delimitador). Esto permite que su modelo fundamente conceptos de vocabulario de mundo abierto. Descubren que su modelo puede generalizarse a objetos desconocidos debido al espacio común de palabras, incluso cuando se entrenan en el conjunto de datos COCO. Su generalización en LVIS supera significativamente una línea de base robusta totalmente supervisada. Siguiendo GLIP, combinan la detección de objetos y los formatos de datos de puesta a tierra para entrenar y mejorar aún más la capacidad de puesta a tierra de su modelo. Estos formularios tienen ventajas complementarias en el sentido de que los datos de conexión a tierra tienen un vocabulario más amplio, mientras que los datos de detección son más abundantes.
La generalización de su modelo se mejora continuamente con datos de entrenamiento más grandes. Contribuciones. 1) Proporcionan una nueva técnica de generación de text2img que brinda a los modelos de difusión de text2img una mayor capacidad de control de conexión a tierra. 2) Su modelo produce text2img basado en un mundo abierto con entradas de cuadro delimitador al retener los pesos preentrenados y aprender a incorporar progresivamente las nuevas capas de localización o sintetizar ideas recién localizadas que no se vieron durante el entrenamiento. 3) Al superar con creces las tareas de layout2img de vanguardia anteriores, el rendimiento de disparo cero de su modelo demuestra el valor de usar grandes modelos generativos preentrenados para tareas posteriores.