Mover imágenes sin esfuerzo: Text2Video-Zero es un modelo de IA que convierte modelos de texto en imagen en generadores de video de tiro cero

Estás leyendo la publicación: Mover imágenes sin esfuerzo: Text2Video-Zero es un modelo de IA que convierte modelos de texto en imagen en generadores de video de tiro cero

Hemos sido testigos del auge de los modelos de IA generativa en los últimos meses. Pasaron de generar imágenes similares a rostros de baja resolución a generar imágenes fotorrealistas de alta resolución con bastante rapidez. Ahora es posible obtener imágenes fotorrealistas únicas describiendo lo que queremos ver. Además, quizás más impresionante es el hecho de que incluso podemos usar modelos de difusión para generar videos para nosotros.

El contribuyente clave a la IA generativa son los modelos de difusión. Toman un mensaje de texto y generan una salida que coincide con esa descripción. Lo hacen transformando gradualmente un conjunto de números aleatorios en una imagen o video mientras agregan más detalles para que se vea como la descripción. Estos modelos aprenden de conjuntos de datos con millones de muestras, por lo que pueden generar nuevas imágenes similares a las que han visto antes. Sin embargo, el conjunto de datos puede ser el problema clave a veces.

Casi siempre no es factible entrenar un modelo de difusión para la generación de video desde cero. Requieren conjuntos de datos extremadamente grandes y también equipos para satisfacer sus necesidades. La construcción de dichos conjuntos de datos solo es posible para un par de institutos en todo el mundo, ya que acceder y recopilar esos datos está fuera del alcance de la mayoría de las personas debido al costo. Tenemos que ir con los modelos existentes e intentar que funcionen para nuestro caso de uso.

🔥 Recomendado:  Apple ha lanzado un conjunto de optimizaciones que permiten usar el generador de imágenes de IA de difusión estable en Apple Silicon, haciendo uso de...

Incluso si de alguna manera logra preparar un conjunto de datos de texto y video con millones, si no miles de millones, de pares, aún necesita encontrar una manera de obtener la potencia de hardware necesaria para alimentar esos modelos a gran escala. Por lo tanto, el alto costo de los modelos de difusión de video dificulta que muchos usuarios personalicen estas tecnologías para sus propias necesidades.

¿Qué pasaría si hubiera una manera de eludir este requisito? ¿Podríamos tener una manera de reducir el costo de entrenar modelos de difusión de video? hora de conocer Texto2Video-Cero

Texto2Video-Cero es un modelo generativo de texto a video de tiro cero, lo que significa que no requiere ningún entrenamiento para ser personalizado. Utiliza modelos de texto a imagen previamente entrenados y los convierte en un modelo de generación de video consistente temporalmente. Al final, el video muestra una secuencia de imágenes de manera rápida para estimular el movimiento. La idea de usarlos consecutivamente para generar el video es una solución sencilla.

Sin embargo, no podemos simplemente usar un modelo de generación de imágenes cientos de veces y combinar los resultados al final. Esto no funcionará porque no hay forma de garantizar que los modelos dibujen los mismos objetos todo el tiempo. Necesitamos una manera de asegurar la consistencia temporal en el modelo.

Para hacer cumplir la consistencia temporal, Texto2Video-Cero utiliza dos modificaciones ligeras.

Primero, enriquece los vectores latentes de los cuadros generados con información de movimiento para mantener la escena global y el tiempo de fondo consistentes. Esto se hace agregando información de movimiento a los vectores latentes en lugar de simplemente muestrearlos aleatoriamente. Sin embargo, estos vectores latentes no tienen suficientes restricciones para representar colores, formas o identidades específicas, lo que genera inconsistencias temporales, particularmente para el objeto en primer plano. Por lo tanto, se requiere una segunda modificación para abordar este problema.

🔥 Recomendado:  28 mensajes de simpatía para clientes, compañeros de trabajo, empleados y su jefe

La segunda modificación es sobre el mecanismo de atención. Para aprovechar el poder de la atención entre fotogramas y, al mismo tiempo, explotar un modelo de difusión preentrenado sin volver a entrenar, cada capa de autoatención se reemplaza con atención entre fotogramas, y la atención de cada fotograma se centra en el primer fotograma. Esto ayuda Texto2Video-Cero para preservar el contexto, la apariencia y la identidad del objeto de primer plano a lo largo de toda la secuencia.

Los experimentos muestran que estas modificaciones conducen a una generación de video consistente y de alta calidad, aunque no requiere capacitación en datos de video a gran escala. Además, no se limita a la síntesis de texto a video, sino que también es aplicable a la generación de video condicional y especializada, así como a la edición de video mediante instrucciones textuales.