Una difusión para gobernar la difusión: modulación de modelos de difusión preentrenados para la síntesis de imágenes multimodales

Estás leyendo la publicación: Una difusión para gobernar la difusión: modulación de modelos de difusión preentrenados para la síntesis de imágenes multimodales

Los modelos de IA de generación de imágenes han irrumpido en el dominio en los últimos meses. Probablemente haya oído hablar de midjourney, DALL-E, ControlNet o Stable dDiffusion. Estos modelos son capaces de generar imágenes fotorrealistas con indicaciones dadas, sin importar cuán rara sea la indicación dada. ¿Quieres ver a Pikachu corriendo por Marte? Anímate, pídele a uno de estos modelos que lo haga por ti, y lo conseguirás.

Los modelos de difusión existentes se basan en datos de entrenamiento a gran escala. Cuando decimos a gran escala, es realmente grande. Por ejemplo, Stable Diffusion se entrenó en más de 2500 millones de pares de leyendas de imágenes. Por lo tanto, si planeó entrenar su propio modelo de difusión en casa, es posible que desee reconsiderarlo, ya que entrenar estos modelos es extremadamente costoso en cuanto a recursos computacionales.

Por otro lado, los modelos existentes generalmente no están condicionados o están condicionados a un formato abstracto como mensajes de texto. Esto significa que solo tienen en cuenta una sola cosa al generar la imagen y no es posible pasar información externa como un mapa de segmentación. La combinación de esto con su dependencia de conjuntos de datos a gran escala significa que los modelos de generación a gran escala tienen una aplicabilidad limitada en dominios en los que no tenemos un conjunto de datos a gran escala para entrenar.

Un enfoque para superar esta limitación es ajustar el modelo preentrenado para un dominio específico. Sin embargo, esto requiere acceso a los parámetros del modelo y recursos computacionales significativos para calcular gradientes para el modelo completo. Además, ajustar un modelo completo limita su aplicabilidad y escalabilidad, ya que se requieren nuevos modelos de tamaño completo para cada nuevo dominio o combinación de modalidades. Además, debido al gran tamaño de estos modelos, tienden a sobreajustarse rápidamente al subconjunto más pequeño de datos en el que están ajustados.

🔥 Recomendado:  Cinco consejos esenciales para el marketing con emojis en 2022

También es posible entrenar modelos desde cero, condicionado a la modalidad elegida. Pero nuevamente, esto está limitado por la disponibilidad de datos de entrenamiento y es extremadamente costoso entrenar el modelo desde cero. Por otro lado, las personas intentaron guiar un modelo previamente entrenado en el momento de la inferencia hacia el resultado deseado. Usan gradientes de un clasificador previamente entrenado o de una red CLIP, pero este enfoque ralentiza el muestreo del modelo ya que agrega muchos cálculos durante la inferencia.

¿Y si pudiéramos usar cualquier modelo existente y adaptarlo a nuestra condición sin requerir un proceso extremadamente costoso? ¿Qué pasa si no entramos en el engorroso y lento proceso de alterar el modo de difusión? ¿Sería posible acondicionarlo todavía? La respuesta es sí, y déjame presentártelo.

El enfoque propuesto, módulos de acondicionamiento multimodal (MCM), es un módulo que podría integrarse en las redes de difusión existentes. Utiliza una pequeña red similar a la difusión que está entrenada para modular las predicciones de la red de difusión original en cada paso de tiempo de muestreo para que la imagen generada siga el condicionamiento proporcionado.

MCM no requiere que el modelo de difusión original sea entrenado de ninguna manera. El único entrenamiento se hace para la red moduladora, que es de pequeña escala y no es costosa de entrenar. Este enfoque es computacionalmente eficiente y requiere menos recursos computacionales que entrenar una red de difusión desde cero o ajustar una red de difusión existente, ya que no requiere calcular gradientes para la red de difusión grande.

Además, MCM generaliza bien incluso cuando no tenemos un gran conjunto de datos de entrenamiento. No ralentiza el proceso de inferencia ya que no hay gradientes que deban calcularse, y la única sobrecarga computacional proviene de ejecutar la pequeña red de difusión.

🔥 Recomendado:  PDEBENCH: un conjunto de Benchmark de simulación dependiente del tiempo para comparar el rendimiento de nuevos modelos de aprendizaje automático

La incorporación del módulo de acondicionamiento multimodal añade más control a la generación de imágenes al poder condicionar sobre modalidades adicionales como un mapa de segmentación o un boceto. La principal contribución del enfoque es la introducción de módulos de acondicionamiento multimodal, un método para adaptar modelos de difusión previamente entrenados para la síntesis de imágenes condicionales sin cambiar los parámetros del modelo original y lograr resultados diversos y de alta calidad a la vez que es más barato y usa menos memoria que entrenar desde cero o poner a punto un modelo grande.

Revisar la Papel y Proyecto Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 16k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools