Estás leyendo la publicación: Investigadores de la Universidad de Maryland proponen difusión en frío: un modelo de difusión con perturbaciones deterministas
Los modelos de difusión se pueden interpretar como arquitecturas de codificador/decodificador estocástico, que se construyen alrededor de una arquitectura residual que aplica sucesivamente una transformación aprendida. A esto se le suma ruido gaussiano aditivo para degradar las imágenes de entrada hasta obtener el ruido. El decodificador, por su parte, reproduce un patrón residual inverso que, partiendo del ruido inverso, invierte la degradación y reconstruye un punto cuya distribución es próxima a la imagen original. El término “difusión” en realidad proviene de la interpretación de estos modelos en mecánica estadística. El decodificador puede verse como una red residual que evalúa la solución de una ecuación diferencial estocástica a lo largo del tiempo. Luego, la distribución asociada se interpreta como la solución de una ecuación de Fokker-Planck (como la ecuación del calor) que introduce un término de difusión asociado con la iteración del ruido gaussiano.
Es interesante notar que, si bien la mayoría de las familias de modelos generativos parametrizados por redes neuronales surgieron entre 2014 y 2015, el interés por los modelos de difusión comenzó como un viejo motor diesel: primero tímidamente, antes de explotar, como lo demuestra una pequeña búsqueda en Google Trends. Ahora están en el corazón de una variedad de aplicaciones de IA generativa (Midjourney, DALL-E,…) utilizadas por el público en general. En investigación, cada vez es más importante comprender experimentalmente los principios subyacentes que explican su eficacia y extraer sus características más generales.
En el papel, Difusión en frío: inversión de transformaciones de imágenes arbitrarias sin ruido, los investigadores proponen reemplazar el ruido gaussiano aditivo en los modelos de difusión con transformaciones deterministas y arbitrarias, que incluyen (desenfoque, submuestreo, nieveificación…). Esta no es la primera vez que se estudia el uso de la degradación determinista dentro de los modelos de difusión; en “modelado generativo con disipación de calor inversa”, los autores se interesaron en la aplicación de la ecuación de calor para codificar imágenes. De hecho, un esquema numérico para integrar la ecuación del calor puede interpretarse como una red lineal residual cuyos pesos serían fijos. En cada paso, se puede entrenar una red de reconstrucción R (o decodificador) para invertir estas transformaciones infinitesimales. Sin embargo, en su enfoque, el proceso de muestreo aún implicaba el uso de ruido gaussiano aditivo en cada iteración.
En el artículo que aquí se presenta, el modelo se entrena como un autocodificador en el que los parámetros del codificador que aplica una degradación se mantienen fijos durante el entrenamiento. Así, para diferentes niveles de degradación parametrizados por la variable t, la red de reconstrucción R minimiza el error de reconstrucción asociado a esta arquitectura. En el documento, los autores optaron por utilizar una norma L1 para esto:
En los modelos de difusión, la generación de imágenes consiste en muestrear un punto en el espacio latente de imágenes degradadas. Una vez que se muestrea el punto, se puede aplicar y construir una ResNet de la siguiente manera:
En cada paso, se desarrolla un punto aplicando sucesivamente la red de reconstrucción R y luego agregando otra perturbación (generalmente gaussiana). Notaremos que en este trabajo, las imágenes degradadas tienen distribuciones muy simples y pueden ser ajustadas por un GMM, por ejemplo.
La principal contribución de los autores es mostrar que este algoritmo no genera muestras realistas cuando la degradación es fija, luego proponen un nuevo método de muestreo para superar este efecto.
Los autores realizan experimentos con conjuntos de datos clásicos utilizados en modelos generativos como MNIST, CIFAR y CelebA. Si bien no involucraron perturbaciones estocásticas sobre su proceso de generación, las muestras generadas son convincentes, aunque un poco menos realistas que las que se encuentran en los enfoques clásicos. Sus métodos de muestreo se aplican a tareas de repintado y superresolución y muestran una eficacia superior en comparación con la técnica de muestreo clásica cuando la degradación es fija y determinista.
Así que tenemos aquí un artículo con un resultado que a primera vista parece muy sorprendente: muestreando puntos de una distribución de entropía muy baja (fría), es posible reconstruir muestras muy realistas de dimensiones altas (un poco más caliente). Si miramos el enfoque desde el punto de vista de la teoría de la información, este resultado parece contraintuitivo y contrario al enfoque clásico donde se parte de una distribución muy desordenada (Caliente) para construir objetos altamente estructurados y de grandes dimensiones (Frío). Los autores aclaran que sí es necesario añadir una pequeña perturbación gaussiana a la muestra inicial para obtener un modelo generativo. Sin embargo, la idea de utilizar otras transformaciones además del ruido blanco gaussiano es interesante y podría conducir a una mejor comprensión de la capacidad generativa de estos modelos.