Estás leyendo la publicación: Conozca a TECO: un modelo de inteligencia artificial de predicción de video eficiente que puede generar videos extensos y temporalmente consistentes para conjuntos de datos complejos en escenas 3D
El campo de la Inteligencia Artificial (IA) ha estado ocupado con el manejo de la explosión de modelos generativos durante los últimos meses. El lanzamiento de código abierto de la difusión estable fue la chispa que encendió la llama interminable de los modelos generativos de texto a imagen.
A pesar del gran éxito de los modelos de generación de imágenes, la generación de videos largos consistentes en el tiempo sigue siendo un desafío. Phenaki fue el ejemplo más exitoso de texto a video, e incluso puede fallar en mantener la consistencia en ciertos escenarios.
Los modelos de predicción de video han recorrido un largo camino en los últimos años gracias al avance de las redes neuronales y las GPU. Pueden producir diversas muestras de fotogramas complejos cercanos a su concepto/video original. Ahora tenemos modelos que pueden generar videos cortos basados en los marcos anteriores.
Desafortunadamente, no se puede decir lo mismo de los videos largos. De hecho, las ventanas deslizantes de contexto corto se pueden usar para predecir fotogramas utilizando modelos de predicción existentes, y probablemente obtendrá un resultado impresionante a primera vista. Sin embargo, estos videos carecerán de consistencia temporal ya que el tamaño de la ventana no es lo suficientemente largo para considerar las dependencias a largo plazo entre fotogramas.
Tener un video temporalmente consistente es importante para una experiencia visual agradable. Imagine que estamos viendo una escena predicha, luego hacemos zoom en cierta parte de ella, y cuando la alejamos, la escena cambia por completo porque no tenemos un modelo consistente temporalmente. Esto sería molesto de ver.
El otro aspecto importante sería una fuerte imaginación del modelo de predicción. Nos gustaría ver una configuración diferente cuando cambiamos de escena, no tener los mismos objetos en todas partes. Por lo tanto, la predicción de video ideal que queremos debe ser consistente a lo largo del tiempo y tener una gran imaginación para nuevas escenas. Pero, ¿qué tan cerca podemos llegar a este escenario ideal? Hora de conocer TECO.
TECO es un modelo de dinámica latente con cuantificación vectorial que puede modelar eficazmente dependencias a largo plazo utilizando transformadores eficientes en un espacio de representación compacto. Muestra un gran rendimiento en una variedad de tareas difíciles de predicción de video. Esto es posible gracias a su capacidad de comprender las dependencias temporales a largo plazo en el video.
TECO utiliza una representación eficiente de marcos y el uso adecuado de transformadores para permitir la consistencia temporal entre marcos. Los vectores de representación eficientes aseguran que TECO pueda reducir significativamente los requisitos computacionales y de memoria.
Comienza con un modelo de red antagónica generativa (GAN) entrenado para comprimir espacialmente los datos de video. Esto ya se ha hecho en la literatura y se demostró que aumenta la eficiencia de los modelos de predicción de video. Sin embargo, incluso después de mover el video al espacio latente, los métodos anteriores todavía se limitaban a modelar secuencias cortas debido a los costos extremadamente altos de las capas de transformadores. TECO encuentra una solución inteligente a este problema para permitir el uso de transformadores para secuencias de video más largas, manteniendo así la consistencia temporal. Además, para entrenar el modelo de manera eficiente, se utiliza una función de pérdida personalizada llamada DropLoss.
Para demostrar el desempeño de TECO, los autores introdujeron tres conjuntos de datos de video desafiantes para medir mejor la consistencia a largo plazo. Fueron construidos sobre los puntos de referencia existentes. TECO mostró una fuerte consistencia temporal en los experimentos y logró una generación de cuadros de alta calidad.
Este fue un breve resumen de TECO. Puede encontrar más información en los enlaces a continuación si desea obtener más información al respecto.