Estás leyendo la publicación: Huawei Research presenta DiffFit para ajustar de manera eficiente los modelos de gran difusión
Uno de los desafíos más importantes en el aprendizaje automático es modelar distribuciones de probabilidad complejas. Los modelos probabilísticos de difusión DPM tienen como objetivo aprender el inverso de un proceso estocástico bien definido que destruye información progresivamente.
La síntesis de imágenes, la producción de video y la edición 3D son algunas de las áreas en las que los modelos probabilísticos de difusión de eliminación de ruido (DDPM, por sus siglas en inglés) han demostrado su valor. Como resultado de sus grandes tamaños de parámetros y frecuentes pasos de inferencia por imagen, los DDPM de última generación incurren en altos costos computacionales. En realidad, no todos los usuarios tienen acceso a medios económicos suficientes para cubrir el costo de computación y almacenamiento. Por lo tanto, es crucial investigar estrategias para personalizar de manera efectiva los modelos de difusión pre-entrenados, grandes y disponibles públicamente para aplicaciones individuales.
Un nuevo estudio realizado por investigadores de Huawei Noah’s Ark Lab utiliza el transformador de difusión como base y ofrece DiffFit, una técnica de ajuste fino sencilla y eficaz para modelos de difusión grandes. Investigaciones recientes de NLP (BitFit) han demostrado que ajustar el término de sesgo puede afinar un modelo previamente entrenado para tareas posteriores. Los investigadores querían adaptar estas estrategias de ajuste efectivas para la generación de imágenes. En primer lugar, aplican inmediatamente BitFi y, para mejorar el escalado de características y la capacidad de generalización, incorporan factores de escala que se pueden aprender a capas particulares del modelo, con un valor predeterminado de 1,0 y ajustes específicos del conjunto de datos. Los resultados empíricos indican que la inclusión de lugares estratégicos en todo el modelo es crucial para mejorar la puntuación de la distancia de inicio de Frechet (FID).
BitFit, AdaptFormer, LoRA y VPT son solo algunas de las estrategias de ajuste fino de parámetros eficientes que el equipo usó y comparó en 8 conjuntos de datos posteriores. Con respecto a la cantidad de parámetros entrenables y la compensación de FID, los hallazgos muestran que DiffFit funciona mejor que estas otras técnicas. Además, los investigadores también encontraron que su estrategia DiffFit podría emplearse fácilmente para afinar un modelo de difusión de baja resolución, permitiéndole adaptarse a la producción de imágenes de alta resolución a un costo económico simplemente tratando las imágenes de alta resolución como un modelo distinto. dominio de los de baja resolución.
DiffFit superó a los modelos de difusión de vanguardia anteriores en ImageNet 512 × 512 al comenzar con un punto de control de ImageNet 256 × 256 entrenado previamente y ajustar DIT durante solo 25 épocas. DiffFit supera al modelo DiT-XL/2-512 original (que tiene 640 millones de parámetros entrenables y 3 millones de iteraciones) en términos de FID y solo tiene aproximadamente 0,9 millones de parámetros entrenables. También requiere un 30% menos de tiempo para entrenar.
En general, DiffFit busca brindar información sobre el ajuste fino eficiente de modelos de difusión más grandes mediante el establecimiento de una línea de base simple y poderosa para el ajuste fino eficiente de parámetros en la producción de imágenes.