Un nuevo enfoque de IA basado en métodos de división de operadores para acelerar el muestreo guiado en modelos de difusión

Estás leyendo la publicación: Un nuevo enfoque de IA basado en métodos de división de operadores para acelerar el muestreo guiado en modelos de difusión

Los modelos de difusión han logrado recientemente resultados de vanguardia en la generación de contenido, incluidas imágenes, videos y música. En este artículo, los investigadores de VISTEC en Tailandia se centran en acelerar el tiempo de muestreo de los modelos de difusión, lo que permite condicionar el procedimiento de muestreo para generar ejemplos que pertenecen a una clase específica (como “perro” o “gato”) o que están condicionados por un aviso arbitrario. Los autores investigan métodos numéricos utilizados para resolver ecuaciones diferenciales para acelerar el proceso de muestreo de modelos de difusión guiada. Estos ya se han utilizado en modelos de difusión incondicional, pero los autores muestran que integrarlos en modelos de difusión guiada es un desafío. Por lo tanto, proponen considerar esquemas de integración más específicos basados ​​en la idea de “división de operadores”.

En el panorama de los modelos generativos, los modelos de difusión pertenecen a los métodos basados ​​en la probabilidad, como la normalización de flujos o los codificadores automáticos variacionales, ya que se entrenan maximizando un límite inferior en la probabilidad de los datos y ofrecen un marco de entrenamiento estable en comparación con los enfoques generativos antagónicos ( GAN), sin dejar de ofrecer un rendimiento cercano. Se pueden describir a través de una cadena de Markov que nos gustaría invertir: comenzando desde un punto de alta dimensión de la distribución de datos, se degrada un punto inicial agregando iterativamente perturbaciones gaussianas (un tipo de procedimiento de codificación). El proceso generativo consiste en aprender un decodificador de eliminación de ruido que invierte esas perturbaciones. El proceso general es altamente costoso desde el punto de vista computacional, ya que implica muchas iteraciones. En este artículo, los autores se enfocan en el procedimiento generativo por el cual el pase hacia adelante puede interpretarse como la solución de una ecuación diferencial. La ecuación asociada a la difusión guiada del papel tiene la siguiente forma:

🔥 Recomendado:  Máquina de espresso comercial: selecciones para su café o sala de descanso

El lado derecho es el término de difusión, mientras que el segundo término puede entenderse como un término de penalización que impone un ascenso de gradiente en la distribución condicional. Lleva la trayectoria a una región de alta densidad correspondiente a la densidad condicional f. Los autores enfatizan que la aplicación directa de un esquema de integración numérica de alto orden (p. ej., Runge-Kutta 4 o Pseudo Linear Multi-Step 4) no logra acelerar el procedimiento de muestreo. En su lugar, proponen utilizar un método de división. Los métodos de división se usan comúnmente para resolver ecuaciones diferenciales que involucran diferentes operadores. Por ejemplo, la simulación de la contaminación del océano por una sustancia química se puede describir mediante ecuaciones de advección-difusión: al usar un método de división, podemos tratar por separado el transporte de esta contaminación (advección) y luego aplicar un operador de difusión. Este es el tipo de método que los autores proponen considerar en este documento al “dividir” la ODE anterior en dos para desarrollar la ecuación anterior desde el tiempo t hasta el tiempo t+1.

Entre los métodos de división existentes, los autores comparan dos diferentes: el método Lie-Trotter Splitting y el método Strang Splitting. Para cada método de división, investigan diferentes esquemas numéricos. Sus experimentos involucran texto y tareas generativas condicionales de clase, superresolución e inpintura. Sus resultados respaldan sus afirmaciones: los autores muestran que pueden reproducir muestras con la misma calidad que la línea de base (que utiliza un esquema de integración de 250 pasos) utilizando un 32-58 % menos de tiempo de muestreo.

Proponer modelos de difusión eficientes que requieran menos computación es un desafío importante, pero en última instancia, la contribución de este artículo va más allá de este alcance. Es parte de la literatura sobre ODE neuronales y sus esquemas de integración asociados. Aquí, los autores se enfocan específicamente en mejorar una clase de modelos generativos, pero el alcance de este tipo de enfoque podría aplicarse a cualquier tipo de arquitectura que pueda interpretarse como una solución a una ecuación diferencial.