Estás leyendo la publicación: META AI presenta un nuevo método de inteligencia artificial (IA) para la generación de texto a imagen utilizando el control de escena de vocabulario abierto
Imagínese poder crear una imagen sumergiendo su pincel digital (en un sentido metafórico) en pintura de “caballo negro”, dibujando la pose particular del caballo y luego dejándolo caer nuevamente en pintura de “luna llena roja” y dibujando la región necesaria. Por último, pero no menos importante, desea que la imagen completa esté en la línea de “La noche estrellada”. Los modelos modernos de texto a imagen dejan mucho que desear para hacer realidad esta ambición.
Uno de los inconvenientes actuales de los modelos SoTA es la incapacidad de inferir vínculos espaciales a partir de un solo mensaje de texto. Un solo mensaje puede representar un número infinito de imágenes diferentes debido a la interfaz de texto a imagen, que es muy poderosa. Sin embargo, tiene un precio. Por un lado, permite a un usuario novato explorar una infinidad de conceptos, pero por otro, restringe la controlabilidad. Por ejemplo, supongamos que un usuario quiere generar una imagen mental con una disposición específica de objetos o regiones en la imagen y sus formas. En ese caso, es prácticamente imposible hacerlo solo con texto.
Para resolver este problema, Make-A-Scene sugirió agregar un mapa de segmentación denso con etiquetas fijas como entrada adicional (opcional) a los modelos de texto a imagen. Hay dos entradas disponibles para el usuario: un mensaje de texto que describe la escena y un mapa de segmentación detallado con etiquetas para cada parte de la imagen. El usuario puede controlar fácilmente el diseño de la imagen de esta manera. Sin embargo, tiene las siguientes deficiencias:
Proporcionar una segmentación densa puede ser laborioso para los usuarios e indeseable en algunos casos, como cuando el usuario prefiere proporcionar un boceto solo de algunos objetos principales que le interesan, dejando que el modelo deduzca el resto del diseño:
- Entrenar el modelo con un conjunto fijo de etiquetas limita la calidad de las cosas que no están en ese conjunto en el momento de la inferencia.
- Proporcionar una segmentación densa puede ser laborioso para los usuarios y no deseable en algunos casos.
- Falta de control detallado sobre la característica específica.
Incluso si la etiqueta “perro” está incluida en el conjunto de etiquetas, no está claro cómo producir varias instancias de perros de varias razas en un solo escenario. Ofrecen una estrategia alternativa para abordar estos inconvenientes: sugieren dos alternativas: (1) usar texto espacial de forma libre para representar cada píxel en el mapa de segmentación en lugar de un conjunto fijo de etiquetas; y (2) usar un mapa de segmentación dispersa que usa texto espacial de forma libre para describir solo los objetos que el usuario especifica mientras deja el resto de la escena sin especificar.
En resumen, proporcionan un escenario de problema novedoso en el que, dada una indicación de texto global que define la imagen completa y una escena espacio-textual que especifica la posición y la forma de los segmentos de interés, así como sus descripciones de texto local, se obtiene una imagen coincidente. creado. Estos ajustes aumentan la expresividad al darle al usuario más control sobre las áreas que le interesan mientras deja el resto en manos de la computadora. Hasta donde saben, ningún conjunto de datos a gran escala proporciona descripciones textuales de forma libre para cada sección de una imagen, lo que hace que su adquisición sea prohibitivamente costosa. Como resultado, deciden extraer los datos pertinentes de las bases de datos de imagen y texto existentes.
Para ello, sugieren una representación espaciotextual única basada en CLIP que permite al usuario determinar la posición y la forma de cada segmento, así como su descripción en texto de forma libre. Usando un modelo de segmentación panóptico que ya ha sido entrenado, extraen áreas locales durante el entrenamiento y alimentan las regiones extraídas en un codificador de imágenes CLIP para producir su representación. Las descripciones de texto proporcionadas por el usuario se tienen en cuenta en el momento de la inferencia, se integran mediante un codificador de texto CLIP y se traducen al espacio de inserción de imágenes CLIP mediante un modelo anterior.
Aplican su representación SpaText sugerida en dos modelos de difusión de texto a imagen de vanguardia, un modelo basado en píxeles (DALLE 2) y un modelo basado en latentes, para evaluar su eficacia (Difusión estable). Ambos modelos de texto a imagen permiten una sola entrada de acondicionamiento en el momento de la inferencia utilizando una guía sin clasificador (mensaje de texto). Muestran cómo los consejos sin clasificador pueden extenderse a cualquier escenario multicondicional y aplicarse a su entrada multicondicional (texto global y la representación espacio-textual). Ellos son los primeros en mostrar esto, hasta donde saben.
También sugieren una variación más rápida de esta extensión que compromete la capacidad de control de la velocidad de inferencia. Finalmente, brindan varias medidas de evaluación automatizadas para la configuración de su problema y comparan su enfoque con sus puntos de referencia utilizando estas métricas y el puntaje FID. Además, realizan un estudio de usuarios para demostrar que los evaluadores humanos también favorecen su método. Abordan un escenario novedoso de generación de imágenes con control de escena textual de forma libre, que es la suma de sus aportes:
(1) Extienden la guía sin clasificador en modelos de difusión al caso multicondicional y presentan un algoritmo de inferencia acelerado alternativo
(2) proponen una representación espacio-textual novedosa que, para cada segmento, representa sus propiedades semánticas y su estructura,
(3) demuestran su eficacia en dos modelos de difusión de última generación: basados en píxeles y basados en latentes, y
(4) proponen varias métricas de evaluación automática y las utilizan para comparar contra la base. También evalúan utilizando un estudio de usuario. Descubren que su enfoque produce resultados innovadores.