Estás leyendo la publicación: Conozca a ReCo: una extensión de IA para modelos de difusión para permitir el control de regiones
Modelos de texto a imagen a gran escala, mirándote Difusión estable, han dominado el espacio de aprendizaje automático en los últimos meses. Han mostrado un rendimiento de generación extraordinario en diferentes escenarios y nos han brindado imágenes que nunca antes pensamos que fueran posibles.
Los modelos de generación de texto a imagen intentan generar imágenes realistas con un mensaje de texto de entrada que describe cómo deberían verse. Por ejemplo, si le pide que genere “Homer Simpson Walking on the Moon”, probablemente obtendrá una imagen de aspecto agradable con detalles en su mayoría correctos. Este gran éxito de los modelos de generación en los últimos años se debe principalmente a los conjuntos de datos y modelos a gran escala utilizados.
Tan buenos como suenan, los modelos de difusión aún pueden considerarse modelos en etapa inicial, ya que carecen de algunas propiedades que deben abordarse en los próximos años.
Primero, la entrada de consulta de texto limita el control de la imagen de salida. Específicamente, es difícil definir con precisión qué desea en qué ubicación en la imagen de salida. Si desea dibujar ciertos objetos en ciertas ubicaciones, como una dona en la esquina superior izquierda, los modelos existentes pueden tener dificultades para hacerlo.
En segundo lugar, cuando la consulta de texto de entrada es larga y de alguna manera complicada, los modelos existentes pasan por alto ciertos detalles y simplemente se basan en la información previa que aprendieron durante la fase de entrenamiento. Cuando combinamos estos dos problemas, se vuelve problemático controlar la región de las imágenes generadas por los modelos existentes.
Hoy en día, cuando desea obtener la imagen deseada, debe probar una gran cantidad de consultas parafraseadas y elegir la salida más cercana a la imagen deseada. Probablemente haya oído hablar de la “ingeniería rápida”, y este es el nombre del proceso. Lleva mucho tiempo y no hay garantía de que produzca la imagen deseada para usted.
Entonces, ahora sabemos que tenemos un problema con los modelos de texto a imagen existentes. Pero no estamos aquí para hablar de los problemas, ¿verdad? Déjame presentarte a ReCOla personalización del modelo de texto a imagen que le permite generar imágenes de salida controladas con precisión.
Los modelos de texto a imagen controlados por región están estrechamente relacionados con el problema de diseño a imagen. Estos modelos toman cuadros delimitadores de objetos con etiquetas como entradas y generan la imagen deseada. Sin embargo, a pesar de su resultado prometedor en el control de la región, su diccionario de etiquetas limitado hace que sea un desafío para ellos comprender las entradas de texto de forma libre.
En lugar de seguir el enfoque de diseño a imagen, que modela el texto y los objetos por separado, ReCO combina estas dos condiciones de entrada y las modela juntas. Llaman a este enfoque un problema de “texto a imagen controlado por región”. De esta manera, dos condiciones de entrada, texto y región, se combinan a la perfección.
ReCO es una extensión de los modelos existentes de texto a imagen. Permite que los modelos preentrenados entiendan las entradas de coordenadas espaciales. La idea central es introducir un conjunto adicional de fichas de posición de entrada para indicar las posiciones espaciales. Estos tokens de posición se incrustan en la imagen al dividirla en regiones de igual tamaño. Luego, cada token se puede incrustar en la región más cercana.
Los tokens de posición de ReCO brindan la especificación precisa de descripciones regionales abiertas en cualquier área de una imagen, creando una interfaz de entrada de texto nueva y útil con control de región.