Comparación de Deep Generative… – Hacia la IA

Estás leyendo la publicación: Comparación de Deep Generative… – Hacia la IA

Publicado originalmente en Hacia la IA.

Modelos de difusión frente a GAN frente a VAE: comparación de modelos generativos profundos

Los modelos generativos profundos se aplican a diversos dominios como imagen, audio, síntesis de video y procesamiento de lenguaje natural. Con el rápido desarrollo de las técnicas de aprendizaje profundo, ha habido una explosión de diferentes modelos generativos profundos en los últimos años. Esto ha llevado a un creciente interés en comparar y evaluar estos modelos en términos de su desempeño y aplicabilidad a diferentes dominios. En este documento, nuestro objetivo es proporcionar una comparación exhaustiva de los modelos generativos profundos, incluidos los modelos de difusión, las redes antagónicas generativas (GAN) y los codificadores automáticos variacionales (VAEs). Revisaré sus principios subyacentes, fortalezas y debilidades. Mi objetivo es proporcionar una comprensión clara de las diferencias y similitudes entre estos modelos para guiar a los investigadores y profesionales en la elección del modelo generativo profundo más apropiado para sus aplicaciones específicas.

Aquí hay un breve resumen de cómo funcionan los modelos GAN, VAE y Diffusion Models.

GAN [1, 2] aprenda a generar nuevos datos de forma similar a un conjunto de datos de entrenamiento. Consiste en dos redes neuronales, un generador y un discriminador, que juegan un juego de dos jugadores. El generador toma valores aleatorios muestreados de una distribución normal y produce una muestra sintética, mientras que el discriminador trata de distinguir entre la muestra real y la generada. El generador está capacitado para producir una salida realista que pueda engañar al discriminador, mientras que el discriminador está capacitado para distinguir correctamente entre los datos reales y los generados. La fila superior de la Figura 1 muestra el esquema de su trabajo.
EAV [3, 4] consta de un codificador y un decodificador. El codificador mapea datos de entrada de alta dimensión en una representación de baja dimensión, mientras que el decodificador intenta reconstruir los datos de entrada originales de alta dimensión mapeando esta representación de vuelta a su forma original. El codificador genera la distribución normal del código latente como una representación de baja dimensión mediante la predicción de los vectores de media y desviación estándar. La fila central de la Figura 1 demuestra su trabajo.
Modelos de difusión [5, 6] consisten en procesos de difusión directa y difusión inversa. La difusión directa es una cadena de Markov que agrega gradualmente ruido a los datos de entrada hasta que se obtiene ruido blanco. No es un proceso de aprendizaje y normalmente toma 1000 pasos. El proceso de difusión inversa tiene como objetivo revertir el proceso de avance paso a paso eliminando el ruido para recuperar los datos originales. El proceso de difusión inversa se implementa utilizando una red neuronal entrenable. La fila inferior de la Figura 1 muestra eso.

🔥 Recomendado:  $ 10 gratis al instante: formas legítimas de ganar 10 dólares rápido hoy con ofertas de bonificación

A continuación, describiré las características clave de los diferentes modelos para ayudarlo a desarrollar una intuición y tomar decisiones informadas al seleccionar modelos para sus casos de uso específicos.

GAN

  • Consta de dos redes neuronales: el generador y el discriminador.
  • Entrenamiento por pérdida adversaria. El generador tiene como objetivo “engañar” a un discriminador generando muestras que no se pueden distinguir de las reales. El objetivo es hacer que el discriminador no pueda diferenciar entre muestras verdaderas y generadas.
  • Muestras de alta fidelidad. Una red neuronal converge, entonces el discriminador no puede distinguir entre muestras reales y generadas. Esto conduce a muestras muy realistas.
  • Muestras de baja diversidad. La pérdida por adversario no tiene el incentivo de cubrir toda la distribución de datos. Cuando el discriminador se ha sobreentrenado o se produce un olvido catastrófico, el generador puede estar lo suficientemente feliz como para producir una pequeña parte de la diversidad de datos. Este es un problema común y se llama colapso de modo.[2].
  • Difícil de entrenar. Puede ser difícil determinar cuándo convergió su red. En lugar de monitorear una pérdida que está disminuyendo, debe mirar dos pérdidas que no tienen una interpretación simple y, a veces, no está claro qué está sucediendo con su red neuronal. Ofensivamente, debe hacer frente al colapso del modo.
  • Hay un simple intercambio de diversidad por fidelidad con un truco de truncamiento.

EAV

  • Consta de dos redes neuronales: el codificador y el decodificador.
  • Entrenamiento por maximización del logaritmo de verosimilitud, que tras simplificaciones matemáticas, se convierte en pérdida de L2. Estima la discrepancia entre las muestras de entrada y las generadas.
  • Muestras de baja fidelidad. Hay varias razones:
    1. Dado que el codificador predice la distribución del código latente, puede haber casos en los que dos distribuciones de códigos latentes se superpongan entre sí. Por lo tanto, si dos entradas tienen el mismo código latente, la decodificación óptima sería el promedio de las dos entradas. Esto conduce a muestras borrosas. Los modelos Gan y de difusión no tienen este problema.
    2. Tiene una pérdida basada en píxeles. La generación de una imagen con cabello consistirá en alternar píxeles claros y oscuros. Si la generación se desplaza solo un píxel, la pérdida de similitud con la realidad básica aumentaría o disminuiría significativamente. Sin embargo, los VAE no retienen dicha información a nivel de píxel porque el espacio latente es mucho más pequeño que la imagen. Esto induce al modelo a predecir un promedio de píxeles claros y oscuros para encontrar la solución óptima, lo que da como resultado una imagen borrosa. Las GAN no tienen ese problema porque el discriminador puede usar la borrosidad de las muestras para discriminar entre las reales y las generadas. De manera similar, los modelos de difusión, a pesar de tener la misma pérdida basada en píxeles, no tienen este problema. Se basan en la estructura de la imagen con ruido actual obtenida de la realidad del terreno para predecir el siguiente paso de eliminación de ruido.
  • Muestras de alta diversidad. La maximización de la probabilidad obliga a cubrir todos los modos del conjunto de datos de entrenamiento, proporcionando capacidad de redes neuronales para cada punto de datos del tren.
  • Fácil de entrenar. Tiene una pérdida de probabilidad manejable.
  • El codificador le permite obtener un código latente de cualquier imagen, lo que brinda posibilidades adicionales más allá de la generación.
🔥 Recomendado:  5 plantillas que están recibiendo respuestas

Modelos de difusión

  • Consiste en un proceso de difusión hacia adelante fijo y un proceso de difusión inversa que se puede aprender.
  • El proceso de difusión directa es un proceso de varios pasos que agrega gradualmente una pequeña cantidad de ruido gaussiano a la muestra hasta que se convierte en ruido blanco. Un valor comúnmente usado para el número de pasos es 1000.
  • El proceso de difusión inversa también es un proceso de varios pasos que invierte el proceso de difusión directa, devolviendo el ruido blanco a una imagen. Cada paso del proceso de difusión inversa es llevado a cabo por una red neuronal y tiene el mismo número de pasos que el proceso directo.
  • Entrenamiento por maximización del logaritmo de verosimilitud, que tras simplificaciones matemáticas, se convierte en pérdida de L2. Durante el entrenamiento, calculamos imágenes con ruido para los pasos T y T-1 utilizando una fórmula para un valor T seleccionado al azar. El modelo de difusión luego predice la imagen de paso T-1 a partir de la imagen ruidosa de paso T. La imagen generada y la imagen del paso T-1 se comparan utilizando una pérdida L2.
  • Muestras de alta fidelidad. Se debe a la naturaleza de eliminar gradualmente el ruido. A diferencia de VAE y GAN, que generan muestras a la vez, los modelos de difusión crean muestras paso a paso. El modelo primero crea una estructura de imagen gruesa y luego se enfoca en agregar detalles finos en la parte superior.
  • Muestras de alta diversidad. La maximización de la probabilidad cubre todos los modos del conjunto de datos de entrenamiento.
  • Las imágenes ruidosas intermedias sirven como códigos latentes y tienen el mismo tamaño que las imágenes de entrenamiento. Esta es una de las razones por las que los modelos de difusión pueden generar muestras de alta fidelidad.
  • Fácil de entrenar. Tiene una pérdida de probabilidad manejable.
  • Generación lenta de muestras. A diferencia de GAN y VAE, requiere varias ejecuciones de la red neuronal para generar muestras gradualmente. Aunque existen métodos de muestreo que pueden acelerar este proceso en órdenes de magnitud, siguen siendo mucho más lentos que los GAN y los VAE.
  • El proceso de múltiples pasos brinda nuevas funcionalidades, como la pintura o la generación de imagen a imagen, simplemente explotando el ruido de entrada.
🔥 Recomendado:  Cómo iniciar un negocio sin dinero

Conclusión

Los modelos GAN, VAE y de difusión son modelos generativos de aprendizaje profundo populares que tienen características únicas y se adaptan a diferentes casos de uso. Cada modelo tiene sus puntos fuertes y débiles, y es importante comprender sus matices antes de seleccionar uno para una aplicación en particular.
Espero que esta información te haya sido útil. ¡Gracias por leer!

Referencias

  1. Redes generativas adversarias. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio — https://arxiv.org/pdf/1406.2661.pdf
  2. Explicación del colapso del modo GAN — https://medium.com/hacia-la-inteligencia-artificial/gan-mode-collapse-explanation-fa5f9124ee73
  3. Bayes variacional de codificación automática. Diederik P. Kingma, Max Welling — https://arxiv.org/pdf/1312.6114.pdf
  4. Comprender los codificadores automáticos variacionales (VAEs) — https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73
  5. Aprendizaje Profundo No Supervisado usando Termodinámica de No Equilibrio. Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, Surya Ganguli — https://arxiv.org/pdf/1503.03585.pdf
  6. ¿Qué son los modelos de difusión? Lilian Weng— https://lilianweng.github.io/posts/2021-07-11-modelos-de-difusión

Publicado a través de Hacia la IA