Estás leyendo la publicación: Este documento de IA presenta un nuevo marco de difusión basado en ondículas que demuestra un rendimiento superior tanto en la fidelidad de la imagen como en la velocidad de muestreo
Los modelos de difusión han avanzado significativamente y atrajeron mucho la atención de los estudios a pesar de haber sido presentados recientemente. Dichos modelos invierten el proceso de difusión para producir salidas claras y de alta calidad a partir de entradas de ruido aleatorias. En varios conjuntos de datos, los modelos de difusión pueden superar a las redes generativas antagónicas (GAN) de vanguardia en cuanto a la calidad de la generación. Lo que es más importante, los modelos de difusión ofrecen una técnica versátil para manejar muchos tipos de entrada condicional, incluidos mapas semánticos, texto, representaciones e imágenes, así como una cobertura de modo mejorada. Aunque estos métodos se utilizan en muchos otros dominios y aplicaciones de datos, los trabajos de generación de imágenes exhiben los resultados más espectaculares.
Los nuevos modelos generativos de texto a imagen basados en la difusión abren una nueva era de arte digital basado en IA y brindan aplicaciones intrigantes a varios otros campos al permitir a los usuarios crear imágenes increíblemente realistas solo mediante la introducción de palabras. Debido a esta habilidad, pueden realizar varias tareas, incluida la producción de texto a imagen, la traducción de imagen a imagen, la pintura de imágenes, la restauración de imágenes y más. Los modelos de difusión son muy prometedores, pero funcionan muy lentamente, lo que impide que se vuelvan tan populares como las GAN. Se tarda unos minutos en generar una sola imagen utilizando el trabajo fundamental Modelos probabilísticos de difusión de eliminación de ruido (DDPM), que requiere miles de pasos de muestreo para obtener la calidad de salida adecuada.
Se han sugerido varios métodos para acortar el tiempo de inferencia, principalmente reduciendo el número de pasos de muestra. Al fusionar Diffusion y GAN en un solo sistema, DiffusionGAN logró un gran avance en la aceleración de la velocidad de inferencia. Como resultado, el número de pasos de muestreo se reduce a 4 y se necesita solo una fracción de segundo para inferir una imagen de 32 x 32. Sin embargo, la forma más rápida anterior, alrededor de 100 veces más lenta que GAN, todavía necesita segundos para crear una imagen de 32 x 32.
DiffusionGAN es ahora el modelo de difusión más rápido del mercado. Aun así, es al menos cuatro veces más lento que el equivalente de StyleGAN, y la diferencia de velocidad sigue ampliándose cuando se aumenta la resolución de salida. Los modelos de difusión aún deben prepararse para aplicaciones a gran escala o en tiempo real, como lo demuestra el hecho de que DiffusionGAN todavía tiene una convergencia lenta y requiere un período de entrenamiento prolongado.
Investigadores de VinAI proponen una estrategia de difusión única basada en wavelet para cerrar la brecha de velocidad. La transformada wavelet discreta, que divide cada entrada en cuatro subbandas para componentes de baja (LL) y alta frecuencia (LH, HL, HH), es la base de su solución. Usan esa transformación a nivel de característica y de imagen. Obtienen una aceleración significativa a nivel de imagen al disminuir la resolución espacial cuatro veces. En el nivel de características, enfatizan el valor de los datos de wavelet en varios bloques generadores. Con un diseño de este tipo, pueden lograr un aumento significativo del rendimiento al mismo tiempo que introducen solo una carga de procesamiento menor. Esto nos permite reducir drásticamente la duración del entrenamiento y la inferencia mientras mantenemos un nivel constante de calidad de salida.
Sus aportes son los siguientes:
• Proporcionan un marco de difusión Wavelet único que utiliza componentes de alta frecuencia para retener la calidad visual de los resultados generados mientras utiliza la reducción dimensional de las subbandas Wavelet para acelerar los modelos de difusión.
• Para aumentar la robustez y la velocidad de ejecución de los modelos generativos, utilizan la descomposición wavelet espacial de imágenes y características.
• El entrenamiento de última generación y la velocidad de inferencia que ofrece su Wavelet Diffusion sugerida es un primer paso para habilitar modelos de difusión de alta fidelidad y en tiempo real.