Domar transformadores para la síntesis de imágenes de alta resolución… – Hacia la IA

Estás leyendo la publicación: Domar transformadores para la síntesis de imágenes de alta resolución… – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

VQ-GAN y Transformer: domesticación de transformadores para la síntesis de imágenes de alta resolución: sinopsis

Resumen

Este post resume el trabajo “Transformadores domesticados para síntesis de imágenes de alta resolución” por . Destaca los mensajes clave para llevar a casa, el alcance de la mejora y las aplicaciones de este trabajo. El artículo es útil para los lectores interesados ​​en comprender cómo las arquitecturas y técnicas neuronales de última generación como la red neuronal convolucional (CNN)[1]Transformadores[2]Codificador automático[3]GAN[4]y libro de códigos cuantificado vectorial[5] se pueden combinar para la síntesis de imágenes, sin profundizar en cada uno de ellos. El mapa mental que se muestra a continuación sirve como una pirámide de conocimiento de requisito previo que uno debe poseer o alcanzar posteriormente para comprender las técnicas definidas en el documento discutido y métodos similares que son el campo de la IA generativa.

El artículo está estructurado de la siguiente manera:

Planteamiento del problema

Demostrar la efectividad de combinar el sesgo inductivo de las CNN con la expresividad de los transformadores para sintetizar imágenes de alta resolución y perceptualmente ricas de manera incondicional o controlada.

La intuición detrás de la Metodología

Para comprender cómo la domesticación de transformadores puede facilitar la síntesis de alta resolución, debemos comenzar desde el principio, Codificadores automáticos variacionales con cuantificación vectorial (VQ-VAE)[5]. VQ-VAE es una red de codificador automático variacional que codifica información de imagen en un espacio latente discreto. Mapea el vector latente producido por el codificador a un vector, que es el más cercano y pertenece a una lista fija de vectores, conocida como el libro de códigos de vectores. El grado de cercanía se calcula utilizando medidas como la distancia euclidiana (?₂ norma). Para garantizar la diversidad de la salida generada, el codificador genera una cuadrícula de vectores latentes en lugar de uno solo, y cada vector latente se asigna a uno de los vectores que pertenecen al mismo libro de códigos. Este proceso se denomina . En consecuencia, obtenemos una cuadrícula 2D de números enteros que representan el espacio latente, donde cada valor de la cuadrícula corresponde al índice del vector dentro de la lista del libro de códigos. Finalmente, los vectores seleccionados después de la cuantificación del espacio latente se envían al decodificador para generar la imagen de salida. Esto se demuestra en el siguiente diagrama de arquitectura:

Matemáticamente, el modelo VQ-VAE simula el problema de reconstrucción de imágenes durante el entrenamiento. La subred del codificador simula una función Ex) que genera una cuadrícula de vectores latentes para una imagen X. Cada vector latente en la cuadrícula se cuantifica mediante una función q(ẑ)que lo asigna a un vector (ẑ) del libro de códigos de vectores disponible. Finalmente, el decodificador simula una función G(zᵩ) que reconstruye la imagen (X’) Vectores de grid of codebook (zᵩ).

🔥 Recomendado:  Visual SLAM, una descripción general de Booster: hacia la IA

dónde ẑᵤᵥ representa el vector latente predicho por el codificador en (tú, v) posición en la grilla, zᵢ representa un vector de libro de códigos, h representa la altura de la cuadrícula, w representa la cuadrícula, y ? es la longitud de dimensión de cada vector de libro de códigos.

Los vectores VQ-VAE y del libro de códigos se aprenden conjuntamente mediante la optimización de la siguiente función objetivo:

dónde ?ᵥ es el pérdida cuantificada vectorial para entrenar el modelo y el libro de códigos juntos, el primer término es el pérdida de reconstrucción (?ᵣ)el segundo término, también conocido como pérdida de alineación del libro de códigos, ayuda a alinear los vectores del libro de códigos con las salidas del codificador, y el tercer término, también conocido como pérdida de compromiso, ayuda en la alineación inversa, es decir, las salidas del codificador a vectores de libro de códigos, cuya importancia para la pérdida general se escala mediante el hiperparámetro sintonizable β. sg[] representa detener el gradientees decir, el flujo de gradiente o la actualización de peso no sucede a través de la variable encerrada dentro []. Para una comprensión detallada e intuitiva de estos conceptos, puede consultar estas publicaciones VAE y VQ-VAE.

Ahora viene el conjunto de mejoras a VQ-VAE propuestas en el artículo comentado. El ?₂ pérdida de reconstrucción fue reemplazada con la pérdida de percepción[6]y un procedimiento de entrenamiento contradictorio con un discriminador basado en parches [7] se introdujo para diferenciar entre imágenes reales y reconstruidas. . Explicaré la relevancia de la compresión mientras analizo cómo los transformadores ayudan al proceso de síntesis de imágenes. Los autores llamaron a este enfoque Vector Quantized — Generative Adversarial Network (VQ-GAN). La siguiente es la función objetivo general:

Aquí ?gramo es la pérdida de la Red Adversaria Generativa, λ es el peso adaptativo dado por la siguiente ecuación, donde ? es para la estabilidad numérica.

Hagamos una digresión por un momento y veamos el marco VQ-GAN desde una perspectiva probabilística. Tenemos un previo sobre el espacio latente p(z)el codificador aproxima la distribución posterior de la latente p(z|x)y el decodificador aproxima la reconstrucción del espacio latente a través de la distribución p(x|z). Para definir lo anterior, aplanamos la cuadrícula 2D de los índices del vector del libro de códigos que forman el espacio latente cuantificado y obtenemos una secuencia de índices s. Hasta ahora se asumía un previo uniforme sobre todos los códigos latentes, efectuándose su selección en el paso i en la secuencia igualmente probable e independiente de los pasos anteriores. Pero esto puede no ser cierto para un conjunto de datos dado que el modelo está tratando de aprender. En otras palabras, la distribución de códigos latentes debe aprenderse de los datos. Esto tendrá dos beneficios. En primer lugar, los datos que generamos mediante el muestreo de latentes del nuevo previo entrenado representarán mejor el conjunto de datos subyacente. En segundo lugar, si la distribución de latentes no es uniforme, entonces los bits que representan la secuencia de latentes pueden comprimirse aún más aplicando codificación Huffman o aritmética estándar. Esta es la compresión que había mencionado anteriormente en la publicación.

🔥 Recomendado:  ¿Qué es la venta social? Más de 10 consejos principales para mejorar su negocio

El aprendizaje del previo latente da lugar a un problema autorregresivo. Recientemente, los transformadores se han convertido en la arquitectura de referencia para tareas de modelado secuencial y autorregresivo, superando a sus contrapartes de convolución (CNN) para la síntesis de imágenes de baja resolución. El funcionamiento del transformador ha sido bien explicado en este Blog utilizando un ejemplo de PNL. Tradicionalmente, los transformadores de imagen tratan y realizan un aprendizaje secuencial a nivel de píxel, cuyo costo escala cuadráticamente con la resolución de la imagen. Aunque son muy adecuados para la síntesis de imágenes de alta resolución que requiere un modelo para aprender el realismo local y comprender la composición global, el costo computacional ha sido el factor inhibidor. Sin embargo, al representar una imagen como una secuencia de índices vectoriales de libro de códigos s, el uso del modelo de transformador se vuelve computacionalmente manejable. Después de elegir algún orden de los índices en saprender lo anterior se puede formular como una predicción autorregresiva del siguiente índice (sᵢ) problema.

donde p(s) es la probabilidad de representación completa de la imagen,

Por último, el mecanismo de atención, que es la esencia de la arquitectura del transformador, establece un límite superior computacional a la longitud de la secuencia. s entrada al transformador. Para mitigar este problema y generar imágenes en el régimen de megapíxeles, el transformador se aplica en parches de imagen con la ayuda de un enfoque de ventana deslizante, como se muestra en la figura a continuación. VQ-GAN garantiza que el contexto disponible siga siendo suficiente para modelar fielmente las imágenes, siempre que las estadísticas del conjunto de datos sean aproximadamente invariantes espacialmente o la información de acondicionamiento espacial esté disponible.

Conclusiones

  • El enfoque propuesto permite modelar los constituyentes de la imagen a través de una arquitectura CNN y sus composiciones a través de la arquitectura transformadora versátil y generalizable, aprovechando así todo el potencial de sus fortalezas complementarias para la síntesis de imágenes.
  • Supera los enfoques convolucionales de última generación para la síntesis de imágenes de alta resolución y está cerca de la vanguardia para las tareas de generación condicional. Algunos resultados se muestran a continuación,
  • VQ-GAN supera a la red comparable más cercana VQ-VAE-2[8] al tiempo que proporciona una compresión significativamente mayor que ayuda a reducir la complejidad computacional.

Oportunidades

  • Métodos para mejorar la usabilidad en tiempo real de este enfoque, ya que las técnicas basadas en transformadores estándar son computacionalmente costosas.
  • Extender el procedimiento dado para la síntesis de imágenes multimodales, como la generación de texto a imagen.
🔥 Recomendado:  17 aplicaciones gratuitas de tarjetas de regalo para ganar recompensas

Aplicaciones

  • Síntesis de imágenes de alta resolución
  • Síntesis semántica de imágenesque está condicionado a la máscara de segmentación semántica.
  • Síntesis de estructura a imagenque está condicionado a la información de profundidad o de borde.
  • Síntesis guiada por posesque está condicionado a la información Pose de sujetos humanos, como el modelado de moda.
  • Síntesis estocástica de superresoluciónque está condicionado a imágenes de baja resolución
  • Síntesis condicional de claseestá condicionado al valor del índice único que define la clase de interés (objeto, animal, humano, etc.).

Referencias

  1. Y. LeCun et al., “Reconocimiento de dígitos escritos a mano con una red de retropropagación”, en Proc. Adv. Información neuronal Proceso. Syst., 1990, págs. 396–404.
  2. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, L. Kaiser e I. Polosukhin, “La atención es todo lo que necesitas”, en Avances en sistemas de procesamiento de información neuronal 30: Conferencia anual sobre sistemas de procesamiento de información neuronal, NeurIPS, 2017.
  3. G. Hinton y R. Salakhutdinov. “Reduciendo la dimensionalidad de los datos con redes neuronales.” ciencia 313.5786 (2006): 504–507.
  4. I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville e Y. Bengio, “Redes generativas adversarias”, en Avances en los sistemas de procesamiento de información neuronal, 2014, págs. 2672–2680.
  5. A. Oord, O. Vinyals, K. Kavukcuoglu. “Aprendizaje de representación discreta neuronal.” Avances en los sistemas de procesamiento de información neuronal 30 (2017).
  6. J. Johnson, A. Alexandre y F. Li. “Pérdidas de percepción para transferencia de estilo en tiempo real y superresolución.” Conferencia europea sobre visión artificial. Springer, Cham, 2016.
  7. P. Isola, J. Zhu, T. Zhou y A. Efros, “Traducción de imagen a imagen con redes antagónicas condicionales”, en la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 2017.
  8. A. Razavi, A. Oord y O. Vinyals, “Generación de diversas imágenes de alta fidelidad con vq-vae-2”, 2019.


Sinopsis: Domando a los transformadores para la síntesis de imágenes de alta resolución (VQ-GAN y Transformer) se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA