▷ Una nueva investigación de NVIDIA convierte la difusión estable de LDM en un modelo de texto a video eficiente y expresivo con una resolución de hasta 1280 x 2048

Estás leyendo la publicación: Una nueva investigación de NVIDIA convierte la difusión estable de LDM en un modelo de texto a video eficiente y expresivo con una resolución de hasta 1280 x 2048

Debido a los avances recientes en los métodos de modelado subyacentes, los modelos generativos de imágenes han atraído un interés como nunca antes. Los modelos más efectivos de la actualidad se basan en modelos de difusión, transformadores autorregresivos y redes antagónicas generativas. Las características particularmente deseadas de los modelos de difusión (DM) incluyen su objetivo de entrenamiento resistente y escalable y la tendencia a necesitar menos parámetros que sus equivalentes basados en transformadores. La escasez de conjuntos de datos de video a gran escala, genéricos y de acceso público y el alto costo computacional involucrado con el entrenamiento en datos de video son las razones clave por las que el modelado de video se ha retrasado. Al mismo tiempo, el dominio de la imagen ha hecho grandes avances.

Aunque hay una gran cantidad de investigaciones sobre la síntesis de video, la mayoría de los esfuerzos, incluidos los DM de video anteriores, solo producen películas cortas de baja resolución. Crean películas extendidas de alta resolución aplicando modelos de video a problemas reales. Se concentran en dos cuestiones pertinentes de generación de video del mundo real: (i) síntesis de video guiada por texto para producir contenido creativo y (ii) síntesis de video de datos de conducción del mundo real de alta resolución, que tiene un gran potencial como motor de simulación en vehículos autónomos. conduciendo. Para hacer esto, se basan en modelos de difusión latente (LDM), que pueden disminuir la carga computacional significativa cuando se aprende de imágenes de alta resolución.

Generan videos coherentes temporalmente utilizando modelos de difusión de imágenes previamente entrenados. El modelo primero genera un lote de muestras que son independientes entre sí. Las muestras se alinean temporalmente y crean películas coherentes después del ajuste fino del video temporal.

Investigadores de LMU Munich, NVIDIA, Vector Institute, la Universidad de Toronto y la Universidad de Waterloo recomiendan Video LDM y expanden LDM a la creación de video de alta resolución, un proceso que requiere mucha potencia informática. A diferencia de las investigaciones anteriores sobre los DM para la creación de videos, sus LDM de video inicialmente se entrenan previamente en imágenes exclusivamente (o usan LDM de imágenes preentrenadas existentes), lo que nos permite aprovechar grandes conjuntos de datos de imágenes. Después de agregar una dimensión de tiempo al DM espacial latente, convierten el generador de imágenes LDM en un generador de video fijando las capas espaciales preentrenadas y entrenando solo las capas temporales en secuencias de imágenes o películas codificadas (Fig. 1). Para establecer la consistencia temporal en el espacio de píxeles. Ajustan el decodificador de LDM de manera similar (Fig. 2).

También alinean temporalmente el espacio de píxeles y los muestreadores de DM latentes, que se utilizan con frecuencia para la superresolución de imágenes, convirtiéndolos en modelos de superresolución de video consistentes en el tiempo para mejorar aún más la resolución espacial. Su enfoque, que se basa en LDM, puede producir películas extensas y globalmente coherentes utilizando poca memoria y capacidad de procesamiento. El muestreador de video solo tiene que funcionar localmente para la síntesis a resoluciones extremadamente altas, lo que genera poca capacitación y demandas informáticas. Para lograr una calidad de video de vanguardia, prueban su tecnología utilizando 5121024 películas de escenarios de conducción reales y sintetizan videos de varios minutos de duración.

Además, mejoran un potente LDM de texto a imagen conocido como difusión estable, de modo que se puede usar para crear texto a video con una resolución de hasta 1280 x 2048. Pueden utilizar un conjunto de entrenamiento razonablemente pequeño de películas con subtítulos. ya que necesitan entrenar las capas de alineación temporal en tal escenario. Presentan la primera instancia de creación personalizada de texto a video mediante la transferencia de las capas temporales aprendidas a LDM de texto a imagen configurados de diversas formas. Anticipan que su trabajo allanará el camino para una generación de contenido digital y una simulación de conducción autónoma más eficaces.

Las siguientes son sus contribuciones:

(i) Proporcionan un método práctico para desarrollar modelos de producción de video basados en LDM con alta resolución y consistencia a largo plazo. Su descubrimiento significativo es usar DM de imágenes preentrenadas para generar videos agregando capas temporales que pueden entrenar imágenes para alinearse consistentemente a lo largo del tiempo (Figs. 1 y 2).

(ii) Afinan aún más los DM de superresolución, que se utilizan ampliamente en la literatura sobre sincronización.

(iii) Pueden producir películas de varios minutos de duración y lograr un rendimiento de síntesis de video de alta resolución de última generación en grabaciones de escenarios de conducción reales.

Ellos (i) actualizan el LDM de texto a imagen de difusión estable de acceso público a un LDM de texto a video robusto y expresivo (ii), (iii) muestran que las capas temporales aprendidas pueden integrarse con otros puntos de control del modelo de imagen (como como DreamBooth), y (iv) hacer lo mismo para las capas temporales aprendidas.

Una nueva investigación de NVIDIA convierte la difusión estable de LDM en un modelo de texto a video eficiente y expresivo con una resolución de hasta 1280 x 2048

Otros temas interesantes: