Conozca Tune-A-Video: un marco de IA para abordar el problema de la generación de texto a video a través de los modelos de generación de texto a imagen existentes

Estás leyendo la publicación: Conozca Tune-A-Video: un marco de IA para abordar el problema de la generación de texto a video a través de los modelos de generación de texto a imagen existentes

La tecnología de inteligencia artificial (IA) ha dado paso a una nueva era en la informática en la que puede producir imágenes ricas y realistas. La creación multimedia ha mejorado significativamente (por ejemplo, generación de texto a texto, de texto a imagen, de imagen a imagen y de imagen a texto). Los modelos generativos recientes como Stable Diffusion y Dall-E (texto a imagen) de OpenAI han sido bien recibidos y, como resultado, estas tecnologías están evolucionando rápidamente y captando la atención de las personas.

Si bien las imágenes producidas por estos modelos son asombrosas e increíblemente detalladas, casi parecidas al realismo fotográfico, los investigadores de IA comienzan a preguntarse si podríamos obtener resultados similares en un dominio más desafiante, como el dominio del video.

Los desafíos provienen de la complejidad temporal que introducen los videos, que no son más que imágenes (en este contexto, generalmente llamadas fotogramas) pegadas unas a otras para simular movimiento. Por lo tanto, la idea y la ilusión de movimiento están dadas por una secuencia de fotogramas coherente en el tiempo colocados uno tras otro.

El otro desafío lo presenta la comparación entre la dimensión de los conjuntos de datos de texto e imagen y los conjuntos de datos de texto y video. Los conjuntos de datos de texto e imágenes son mucho más grandes y variados que los de texto y video.

Además, para reproducir el éxito de la generación de texto a imagen (T2I), los trabajos recientes en la generación de texto a video (T2V) emplean conjuntos de datos de texto y video a gran escala para el ajuste fino.

🔥 Recomendado:  Cómo la escucha social puede ayudarlo a construir un negocio exitoso de cajas de suscripción

Sin embargo, tal paradigma es computacionalmente costoso. Los seres humanos tienen la asombrosa capacidad de aprender nuevos conceptos visuales a partir de un solo ejemplo.

Con esta suposición, se ha propuesto un nuevo marco denominado Tune-A-Video.

El objetivo de los investigadores es estudiar un nuevo problema de generación de T2V, conocido como generación de video de disparo único, donde solo se presenta un solo par de texto y video para entrenar un generador de T2V de dominio abierto.

Intuitivamente, el modelo de difusión T2I previamente entrenado en datos de imágenes masivas se puede adaptar para la generación de T2V.

Tune-A-Video está equipado con atención dispersa causal personalizada para aprender movimiento continuo, que genera videos a partir de indicaciones de texto a través de un ajuste eficiente de una sola toma de modelos de difusión T2I preentrenados.

Las razones para adaptar los modelos T2I a T2V se basan en dos observaciones clave.

En primer lugar, los modelos T2I pueden generar imágenes que se alinean bien con los términos verbales. Por ejemplo, dado el mensaje de texto “un hombre está corriendo en la playa”, los modelos T2I producen la instantánea en la que un hombre está corriendo (no caminando ni saltando), pero no de forma continua (la primera fila de la figura 2). Esto sirve como evidencia de que los modelos T2I pueden atender adecuadamente a los verbos a través de la atención intermodal para la generación de movimiento estático.

Por último, ampliar la atención propia en el modelo T2I de una imagen a varias imágenes mantiene la coherencia del contenido en todos los fotogramas. Tomando el ejemplo citado anteriormente, se puede observar el mismo hombre y la misma playa en la secuencia resultante cuando generamos fotogramas consecutivos en paralelo con atención ampliada de fotogramas cruzados al primer fotograma. Sin embargo, el movimiento todavía no es continuo (la segunda fila de la Fig. 2).

🔥 Recomendado:  10 consejos para dominar el SEO para páginas de destino y alcanzar tus objetivos

Esto implica que las similitudes espaciales en lugar de las posiciones de píxeles solo impulsan las capas de autoatención en los modelos T2I.

De acuerdo con estas observaciones y resultados intermedios, Tune-A-Video parece capaz de producir videos coherentes temporalmente entre varias aplicaciones, como cambio de tema o fondo, edición de atributos y transferencia de estilo.

Si está interesado en los resultados finales, se presentan cerca del final del artículo.

La descripción general de Tuna-A-Video se presenta en la siguiente figura.

La convolución 2D en las entradas de video se utiliza para extraer la autoatención temporal con una máscara para el modelado temporal. Para lograr una mejor consistencia temporal sin aumentar exponencialmente la complejidad computacional, se introduce una capa de atención causal dispersa (SC-Attn).

Al igual que la atención causal, el primer cuadro de video se calcula de forma independiente sin prestar atención a otros cuadros, mientras que los cuadros siguientes se generan visitando cuadros anteriores. El primer cuadro se relaciona con la coherencia del contexto, mientras que el primero se usa para aprender el movimiento deseado.

La capa SC-Attn modela el mapeo unidireccional de un cuadro a sus anteriores y, debido a la causalidad, las características clave y de valor derivadas de los cuadros anteriores son independientes de la salida del cuadro considerado.

Por lo tanto, los autores corrigen la matriz de proyección de clave y valor y solo actualizan la matriz de consulta.

Estas matrices también se ajustan con precisión en las capas de atención temporal (Temp-Attn), ya que se agregan recientemente y se inicializan aleatoriamente. Además, la proyección de consultas se actualiza en atención cruzada (Cross-Attn) para una mejor alineación de video-texto.

🔥 Recomendado:  Frustración en la búsqueda de empleo: 5 pasos para relanzar su búsqueda de empleo

El ajuste fino de los bloques de atención es computacionalmente eficiente y mantiene la propiedad de los modelos T2I basados ​​en difusión sin cambios.

Algunos resultados de muestra, que se muestran como secuencias de cuadros, se muestran a continuación como una comparación entre Tune-A-Video y un enfoque de última generación.

Este fue el resumen de Tune-A-Video, un nuevo marco de IA para abordar el problema de la generación de texto a video. Si estás interesado, puedes encontrar más información en los siguientes enlaces.

Revisar la Papel y Proyecto. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestra página de Reddit, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools