Los investigadores de IA de Google proponen el modelo autorregresivo de texto a imagen (Parti) Pathways, que genera imágenes fotorrealistas de alta fidelidad y es compatible con la síntesis rica en contenido

Estás leyendo la publicación: Los investigadores de IA de Google proponen el modelo autorregresivo de texto a imagen (Parti) Pathways, que genera imágenes fotorrealistas de alta fidelidad y es compatible con la síntesis rica en contenido

El cerebro humano puede desarrollar escenarios complejos basados ​​en descripciones, ya sean verbales o escritas. Reproducir esto para producir imágenes basadas en tales descripciones puede abrir aplicaciones creativas en múltiples campos, ya sea en las artes, el diseño o el desarrollo de contenido multimedia. Investigaciones recientes de creación de texto a imagen, como DALL-E y CogView, han hecho un progreso significativo en la producción de imágenes de alta fidelidad. También ha demostrado su valor al mostrar capacidades de generalización a pares de objetos y conceptos previamente inexplorados. Ambos abordan el problema como modelado del lenguaje, convirtiendo descripciones textuales en palabras visuales. Después de esto, emplean estructuras actuales de secuencia a secuencia, como Transformers, para comprender el vínculo entre las entradas del lenguaje y las salidas visuales.

La tokenización visual combina efectivamente la perspectiva del texto y las imágenes, lo que les permite manejarse como secuencias de tokens discretos y, por lo tanto, susceptibles de modelos de secuencia a secuencia. Para ese propósito, DALL-E y CogView aprendieron de una vasta colección de emparejamientos de texto e imagen potencialmente ruidosos utilizando modelos de lenguaje de solo decodificador, similar a GPT. Make-A-Scene amplía este método de modelado de dos etapas para adaptarse a la producción de imágenes guiadas por escenas y texto.

Se ha realizado un trabajo considerable en el pasado para escalar grandes modelos de lenguaje y desarrollos en la discretización de imágenes y audio. Estos modelos renuncian al uso de fichas de imágenes discretas en favor de modelos de difusión que crean imágenes directamente. En comparación con trabajos anteriores, estos modelos mejoran las puntuaciones de Fréchet Inception Distance (FID) de tiro cero en MS-COCO y crean imágenes con una calidad y un atractivo estético significativamente mejorados. Ahora, las entradas en otras modalidades pueden manejarse como tokens similares a los de un lenguaje, y los modelos autorregresivos para la creación de texto a imagen siguen siendo tentadores. En este estudio se presenta el modelo Pathways Autoregressive Text-to-Image (Parti). Este modelo crea imágenes de alta calidad a partir de descripciones de texto, incluidas imágenes fotorrealistas, pinturas, bocetos y más. Los investigadores muestran que escalar modelos autorregresivos con un tokenizador de imágenes ViT-VQGAN es una técnica excelente para mejorar la creación de texto a imagen. Estos modelos incorporan y representan gráficamente información mundial de manera eficaz.

🔥 Recomendado:  Cómo optimizar un sitio web de Shopify para SEO [2023]

Parti es un modelo de secuencia a secuencia basado en el Transformador, una arquitectura crucial para diversas aplicaciones, como traducción automática, reconocimiento de voz, modelado conversacional, subtítulos de imágenes y muchas más. Parti usa tokens de texto como entrada para un codificador y un decodificador autorregresivo para predecir tokens de imagen discretos. Los tokens de imagen se generan utilizando el tokenizador de imagen ViT-VQGAN basado en transformador, que proporciona resultados reconstruidos de mayor fidelidad y usa menos código.

Generación de texto a imagen utilizando el modelo autorregresivo de secuencia a secuencia Parti (izquierda) y el tokenizador de imagen ViT-VQGAN (derecha) | https://arxiv.org/pdf/2206.10789v1.pdf

Parti es una idea básica: todos sus componentes (codificador, decodificador y tokenizador de imágenes) se basan en transformadores convencionales. Esta facilidad de uso permite a los investigadores hacer crecer sus modelos utilizando metodologías estándar e infraestructura actual. Expanden el tamaño del parámetro de los modelos Parti hasta 20B para investigar los límites de la arquitectura de texto a imagen de dos etapas. Ven ganancias de calidad consistentes con respecto a la alineación de texto e imagen y la calidad de la imagen. En MS-COCO, el modelo 20B Parti obtiene una nueva puntuación FID de disparo cero de última generación de 7,23 y una puntuación FID ajustada de 3,22.

Las principales contribuciones del investigador a este artículo son las siguientes:

  • Muestre que los modelos autorregresivos pueden lograr un rendimiento de última generación, con FID de disparo cero de 7,23 y FID ajustado de 3,22 en MS-COCO y FID de disparo cero de 15,97 y FID ajustado de 8,39 en narrativas localizadas.
  • La escala importa: el modelo Parti más grande es el mejor en la generación de imágenes fotorrealistas de alta fidelidad y es compatible con la síntesis rica en contenido
  • Implemente un nuevo punto de referencia integral llamado PartiPrompts (P2) que establece un nuevo estándar para detectar las limitaciones de los modelos de generación de texto a imagen.
🔥 Recomendado:  Los 3 mejores bots comerciales de Binance EE. UU. en 2023 (gratis y premium)

Una implementación PyTorch de Parti está disponible en GitHub.

Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘Escalado de modelos autorregresivos para la generación de texto a imagen rico en contenido‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y github.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools