▷ Los investigadores de IA de ByteDance presentan 'MagicVideo', un marco eficiente de generación de texto a video basado en modelos de difusión latente

Estás leyendo la publicación: Los investigadores de IA de ByteDance presentan ‘MagicVideo’, un marco eficiente de generación de texto a video basado en modelos de difusión latente

Los modelos de IA generativa han recorrido un largo camino en los últimos años. Su capacidad aumentó significativamente con el avance de los modelos de difusión. Especialmente la generación de texto a imagen con modelos de difusión produjo resultados realmente impresionantes.

Sin embargo, no se detuvo allí. Hemos visto modelos de IA que podrían lograr con éxito la generación de texto a X. Desde la transferencia de estilo hasta la generación de objetos 3D, estos modelos basados en la difusión superaron los enfoques anteriores cuando se trataba de generar resultados semánticamente correctos y visualmente agradables.

La generación más atractiva lograda fue probablemente la de los modelos de texto a video. La idea de ver cómo “un astronauta montando un caballo con un koala a su lado en la Luna” se vería sin pasar horas en CGI obviamente era muy interesante para la gente. Sin embargo, a pesar de los pocos intentos exitosos, la generación de texto a video sigue siendo una tarea poco explorada.

La tarea de generación de texto a video es extremadamente desafiante por su naturaleza. Es especialmente difícil de lograr usando modelos de difusión por varias razones. En primer lugar, construir un conjunto de datos a gran escala de pares de descripción de video y texto es mucho más difícil que recopilar pares de imagen y texto. No es fácil describir el contenido del video usando una sola oración. Además, podría haber varias escenas en el video en las que la mayoría de los cuadros no brindarían información útil.

Además, el video en sí mismo es una fuente engañosa de información. Incluye dinámicas visuales complejas, que son mucho más difíciles de aprender que las imágenes. Cuando agrega la información temporal entre diferentes cuadros además de eso, se vuelve realmente desafiante modelar el contenido del video.

Finalmente, un video típico contiene alrededor de 30 cuadros por segundo, por lo que habrá cientos, si no miles, de cuadros dentro de un solo videoclip. Por lo tanto, el procesamiento de videos largos requiere una gran cantidad de recursos computacionales.

Estas limitaciones obligaron a los modelos recientes basados en la difusión a producir videos de baja resolución y luego aplicar superresolución para mejorar la calidad visual. Sin embargo, incluso este truco no es suficiente para reducir la enorme complejidad computacional.

¿Entonces, cuál es la solución? ¿Cómo podemos trasladar el éxito de los modelos de generación de imágenes a la tarea de generación de video? ¿Podemos desarrollar un modelo de difusión que pueda generar videos de alta calidad y temporalmente consistentes? La respuesta es sí, y tiene un nombre: MagicVideo.

MagicVideo genera videos en el espacio latente utilizando un codificador automático variacional preentrenado. Este truco permite un requisito computacional extremadamente reducido para MagicVideo. Además, tiene algunas mangas más en su truco para abordar los problemas mencionados anteriormente.

MagicVideo usa convolución 2D en lugar de convoluciones 3D para superar tener un conjunto de datos emparejado de video y texto. Los operadores de computación temporal se utilizan junto con las operaciones de convolución 2D para procesar información espacial y temporal en el video. Además, el uso de circunvoluciones 2D permite que MagicVideo use pesos preentrenados de modelos de texto a imagen.

Aunque cambiar de convolución 3D a convolución 2D reduce significativamente la complejidad computacional, el costo de la memoria sigue siendo demasiado alto. Por lo tanto, MagicVideo comparte los mismos pesos para cada operación de convolución 2D. Sin embargo, hacerlo reducirá la calidad de la generación ya que este enfoque asume que todos los marcos son casi idénticos, aunque, en realidad, la diferencia temporal está ahí. Para superar este problema, MagicVideo utiliza un módulo adaptador ligero personalizado para ajustar la distribución de fotogramas de cada fotograma.

MagicVideo aprende la relación entre fotogramas mediante un módulo de autoatención dirigida. Los fotogramas se calculan en función de los anteriores, de forma similar al enfoque utilizado en la codificación de vídeo. Finalmente, los videoclips producidos se mejoran mediante un módulo de posprocesamiento.

MagicVideo es otro paso adelante hacia la generación de video confiable. Consigue trasladar el éxito de los modelos de generación de imágenes al dominio del vídeo. MagicVideo genera videos en el espacio latente para abordar la complejidad computacional.

Este fue un breve resumen de MagicVideo. Puede encontrar información en los enlaces a continuación si está interesado en obtener más información al respecto.

Los investigadores de IA de ByteDance presentan ‘MagicVideo’, un marco eficiente de generación de texto a video basado en modelos de difusión latente

Otros temas interesantes: