Investigadores de Microsoft Asia y la Universidad de Pekín propusieron NUWA-Infinity, un modelo para generar imágenes y videos de alta resolución y tamaño arbitrario

Estás leyendo la publicación: Investigadores de Microsoft Asia y la Universidad de Pekín propusieron NUWA-Infinity, un modelo para generar imágenes y videos de alta resolución y tamaño arbitrario

En los últimos años, la generación de imágenes o videos a partir de diferentes tipos de entradas (texto, visual o multimodal) ha ganado popularidad. En este contexto, los dos principales desafíos que los investigadores de todo el mundo están estudiando son 1) cómo producir imágenes de alta resolución y 2) cómo producir videos más largos. Esto se debe a que las imágenes de alta resolución y los videos de larga duración pueden proporcionar mejores efectos visuales para aplicaciones prácticas, como diseño, publicidad y entretenimiento. Por ejemplo, imagínese el impacto de una red neuronal capaz de producir una película con solo darle su guión.

Sin embargo, generar imágenes o videos de alta resolución de tamaño arbitrario es una tarea muy compleja, especialmente en comparación con el mundo de la PNL. En primer lugar, aunque la generación de texto en NLP se ha estudiado durante muchos años, las aplicaciones visuales aún se encuentran en sus primeras etapas. Los enfoques existentes más eficientes, como los modelos de difusión, solo pueden generar imágenes de tamaño fijo.

En segundo lugar, a diferencia de los datos de texto, las imágenes y los videos tienen dos (ancho y alto) y tres (ancho, alto y duración) dimensiones, respectivamente. Esto sugiere que los modelos de síntesis visual deben considerar y modelar diferentes órdenes y direcciones de generación para diferentes tipos de tareas.

Por este motivo, un grupo de investigadores de Microsoft Asia y la Universidad de Pekín propusieron NUWA-Infinity para abordar el problema de la síntesis visual infinita. Lo emocionante de este método es su autorregresión sobre el mecanismo de autorregresión. Más claramente, un primer transformador autorregresivo se encarga de generar los tokens únicos (como en los enfoques autorregresivos estándar) que componen un parche, mientras que un segundo se ocupa de las dependencias entre los parches generales.

🔥 Recomendado:  Las 6 mejores monedas alternativas para invertir en 2023 (baja capitalización de mercado)

Junto a esto, se introdujeron otras dos técnicas necesarias para hacer eficiente el modelo mencionado anteriormente: el Near Context Pool (NCP) y el Arbitrary Direction Controller (ADC).

Modelo

El modelo toma una entrada que puede ser un texto o una imagen y tiene como objetivo producir una imagen o un video con una resolución y duración especificadas por el usuario. Como ya se dijo, NUWA se basa en dos modelos autorregresivos: uno global, que funciona en parches, basado en todos los parches generados anteriormente, y uno local, que genera los tokens que componen cada parche. La imagen/vídeo final se produce luego componiendo los diferentes parches.

ADC

Entonces se propuso ADC para resolver el problema de la multidimensionalidad de las imágenes y el video, a diferencia del texto que es unidimensional. La idea principal es que un solo orden de izquierda a derecha no es suficiente. ADC se compone de dos funciones: Dividir y embe. El primero toma una imagen o video y devuelve una secuencia de parche ordenada. En la fase de entrenamiento, se pueden usar cuatro órdenes de generación básicas (que se muestran en la figura a continuación, a la izquierda). En el momento de la inferencia, se utiliza la capacidad que aprende NUWA durante el entrenamiento de generar parches siguiendo diferentes órdenes. Por ejemplo, en el caso del repintado, se parte de un parche central y se extiende la imagen en todas las direcciones (figura inferior, derecha).

https://arxiv.org/pdf/2207.09814.pdf

Una vez realizada la función split, el embe La función asigna la posición de incrustación al parche que se está generando y define su contexto a partir de los parches ya generados. Los autores propusieron una incrustación posicional dinámica, es decir, que cambia con el tiempo. Dependiendo del parche considerado, la incrustación posicional de todos los demás parches cambia en consecuencia.

🔥 Recomendado:  7 increíbles beneficios y ventajas de la publicidad programática que debes conocer

PNC

NCP está destinado a resolver el problema de las relaciones a largo plazo mediante el almacenamiento en caché de parches relacionados teniendo en cuenta el contexto del parche actual y no todos los parches generados anteriormente. Se basa en tres funciones: Seleccionar, Agregar y Eliminar. Agregar guarde el caché del parche (definido como los estados ocultos de múltiples capas). Seleccionar toma los cachés de los parches cercanos al parche considerado para definir el contexto. Se utiliza una extensión máxima para definir los ‘límites’ del contexto. Finalmente, Eliminar elimina los cachés de esos parches que ya no tienen efecto en el contexto.

Capacitación

Durante el entrenamiento, la red recibe un par texto-imagen. El texto se codifica mediante un codificador de texto, mientras que la imagen (o el video) se divide en parches y se selecciona un orden de generación de parches con ADC. Un VQ-GAN preentrenado transforma las imágenes en tokens visuales (a, b, c, d en la imagen a continuación).

Dado un parche, su contexto se selecciona con NCP y, una vez obtenido el contexto, se utiliza para realizar la incrustación posicional con ADC.

Luego, un decodificador de visión L-layers toma como entrada los parches y el contexto. La atención cruzada (utilizada generalmente para datos multimodales) también se agrega al decodificador para abordar las relaciones de texto e imagen.

Finalmente, Agregar y Eliminar Las funciones de NCP se utilizan para limpiar el contexto para el próximo parche. El modelo se entrena con una entropía cruzada basada en el token generado y la realidad del terreno. El proceso completo se resume en la siguiente figura.

🔥 Recomendado:  Se espera que la industria del marketing de afiliados alcance los 36.900 millones de dólares en ingresos para 2030

Experimentos

El modelo se probó en cuatro conjuntos de datos diferentes (construidos por los autores) para cinco tareas diferentes: generación de imágenes incondicionales, pintura exterior de imágenes, animación de imágenes, texto a imagen, texto a video, obteniendo contenido excelente y de alta definición para todos. los acercamientos A continuación se muestran algunos ejemplos de estas aplicaciones. Las animaciones, que son uno de los aspectos más interesantes de este artículo, se pueden visualizar aquí: https://nuwa-infinity.microsoft.com/

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘NUWA-Infinity: Generación autorregresiva sobre generación autorregresiva para síntesis visual infinita‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools