▷ El nuevo modelo de texto a imagen GigaGAN puede generar imágenes 4K en 3,66 s

Estás leyendo la publicación: El nuevo modelo de texto a imagen GigaGAN puede generar imágenes 4K en 3,66 s

Los investigadores han desarrollado un nuevo modelo de texto a imagen llamado GigaGAN que puede generar Imágenes 4K en 3,66 segundos. Esta es una mejora importante con respecto a los modelos de texto a imagen existentes, que pueden tardar minutos o incluso horas en generar una sola imagen.

El nuevo modelo de texto a imagen GigaGAN puede generar imágenes 4K a 3,66 s

GigaGAN se basa en el marco GAN (red adversarial generativa), que es un tipo de red neuronal que puede aprender a generar datos similares a un conjunto de datos de entrenamiento. Las GAN se han utilizado para generar imágenes realistas de rostros, paisajes e incluso imágenes de Street View.

El nuevo modelo ha sido entrenado en un conjunto de datos de mil millones de imágenes, que es mucho más grande que los conjuntos de datos utilizados para entrenar modelos anteriores de texto a imagen. Como resultado, GigaGAN puede generar imágenes de 512 px en 0,13 segundos, que es más de 10 veces más rápido que el modelo anterior de texto a imagen de última generación.

Además, GigaGAN viene con un espacio latente desenredado, continuo y controlable. Esto significa que GigaGAN puede generar imágenes que tienen una variedad de estilos diferentes y que las imágenes generadas se pueden controlar hasta cierto punto. Por ejemplo, GigaGAN puede generar imágenes que conservan el diseño de la entrada de texto, lo cual es importante para las aplicaciones, por ejemplo, al generar imágenes de diseños de productos a partir de descripciones de texto.

GigaGAN también se puede utilizar para entrenar un upsampler eficiente y de mayor calidad. Esto se puede aplicar a imágenes reales o a salidas de otros modelos de texto a imagen.

Una rama de codificación de texto, una red de mapeo de estilos, una red de síntesis multiescala y una atención estable y una selección de kernel adaptable son parte del generador GigaGAN. Los desarrolladores comienzan la rama de codificación de texto extrayendo incrustaciones de texto con un modelo CLIP entrenado previamente y capas de atención aprendidas T. De manera similar a StyleGAN, la incrustación se pasa a la red de mapeo de estilo M, que genera el vector de estilo w. Para generar una pirámide de imágenes, la red de síntesis ahora usa el código de estilo como modulación y las incrustaciones de texto como atención. Además, los desarrolladores introducen la selección de kernel adaptativa de muestra para seleccionar kernels de convolución de forma adaptativa en función del condicionamiento del texto de entrada.

El discriminador, al igual que el generador, tiene dos ramas para el procesamiento de la imagen y el condicionamiento del texto. La rama de texto, como el generador, procesa el texto. La rama de imagen recibe una pirámide de imagen y tiene la tarea de hacer predicciones independientes para cada escala de imagen. Además, las predicciones se realizan en todas las escalas de capa de submuestreo subsiguientes. Las pérdidas adicionales también se utilizan para fomentar la convergencia efectiva.

Como se muestra en la cuadrícula de interpolación, GigaGAN permite una interpolación fluida entre indicaciones. Las cuatro esquinas se crean utilizando la misma z latente pero diferentes indicaciones de texto.

Debido a que GigaGAN conserva un espacio latente desenredado, los desarrolladores pueden combinar el estilo tosco de una muestra con el estilo refinado de otra. GigaGAN también puede controlar el estilo directamente con indicaciones de texto.

Leer más artículos relacionados:

El nuevo modelo de texto a imagen GigaGAN puede generar imágenes 4K en 3,66 s

Otros temas interesantes: