Estás leyendo la publicación: Investigadores de IA de la Universidad de Tsinghua proponen un transformador de parámetros 9B ‘CogVideo’, entrenado heredando un modelo preentrenado de texto a imagen, CogView2
Este artículo está escrito como un resumen por el personal de investigación de Marktechpost basado en el documento ‘CogVideo: entrenamiento previo a gran escala para la generación de texto a video a través de transformadores‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papely github.
Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático
Gracias a DALL-E, recientemente hemos visto cómo los transformadores preentrenados han revolucionado el campo de la generación de texto a imagen. Entonces, ¿por qué no intentar usarlos para la generación de texto a video? Hoy en día, esta idea se enfrenta a diferentes retos. Las principales razones son la disponibilidad de conjuntos de datos adecuados y cómo se han utilizado. En primer lugar, recopilar grandes cantidades de pares de texto e imagen de alta calidad de Internet es relativamente fácil, mientras que esto no es cierto actualmente para los datos de texto y video. En segundo lugar, las longitudes de video no fijas conducen a un problema desafiante: para crear las muestras de datos necesarias para entrenar el modelo de aprendizaje profundo de texto a video, los investigadores generalmente dividen el video en varios clips con un número fijo de cuadros, lo que interrumpe la alineación. entre el texto y la parte correspondiente del video. Aclaremos esto a través de un ejemplo. Considere un video en el que una mujer está bebiendo un vaso de agua. Queremos que el modelo de aprendizaje profundo aprenda a crear un video a partir del texto “beber”. Sin embargo, si el video considerado se divide en cuatro clips en los que la mujer respectivamente (1) sostiene el vaso, (2) levanta el vaso, (3) bebe del vaso y (4) deja el vaso, la modelo confundirse al aprender el significado de beber. De hecho, los cuatro clips mencionados anteriormente estarán todos asociados con el mismo texto original: “beber”.
A través de este trabajo, un grupo de investigadores de la Universidad de Tsinghua en Beijing propone CogVideo, un modelo generativo de texto a video preentrenado a gran escala. Construyen CogVideo utilizando un modelo de texto a imagen previamente entrenado (es decir, CogView2) para explotar el conocimiento que aprendió del entrenamiento previo de texto a imagen. Al mismo tiempo, su idea es garantizar la alineación de texto y video a través de un enfoque de entrenamiento jerárquico de frecuencia de cuadro múltiple.
Entrenamiento jerárquico de velocidad de fotogramas múltiples
Primero, siguiendo el marco VQVAE, los investigadores convierten cada cuadro de video en tokens de imagen (es decir, partes de una imagen). Cada muestra de entrenamiento consta de 5 marcos de 400 tokens. Durante el proceso de entrenamiento, el transformador recibe los tokens de fotogramas, el texto y un token de velocidad de fotogramas como entrada. En la figura, B significa “Comienzo de imagen”, y es solo un token separador heredado de CogView2. El token de velocidad de fotogramas se utiliza para condicionar la generación de los fotogramas para que cada muestra de entrenamiento incluya la acción completa descrita en el texto. Esto mitiga el problema de alineación de texto y video que describimos anteriormente. Específicamente, para cada par de texto y video, se selecciona la tasa de cuadros más baja entre un conjunto predefinido siempre que sea posible muestrear al menos 5 cuadros del video original. Después de crear los fotogramas clave de acuerdo con el texto, los investigadores entrenaron un modelo de interpolación de fotogramas para insertar de forma recursiva fotogramas de transición para hacer que el video resultante sea más coherente. Durante este proceso, también es posible variar la velocidad de fotogramas si es necesario. Al final, CogVideo genera videos de 480×480.
Atención de doble canal
El modelo utilizado para realizar la generación de texto a video debe ser capaz de inferir correlaciones espaciales y temporales entre texto y video. Como hemos discutido brevemente en la introducción, recopilar pares de texto y video de alta calidad es complejo, costoso y requiere mucho tiempo. Afortunadamente, el aprendizaje de la semántica espacial se puede facilitar mediante la explotación de datos de imágenes. Por esta razón, los investigadores de este trabajo se basan en el modelo de texto a imagen CogView2. Además, proponen una técnica llamada atención de doble canal. El modelo CogView2 preentrenado incluye diferentes capas de transformadores en las que se implementa un mecanismo de atención espacial. Su propósito es analizar las características espaciales de cada fotograma. CogVideo agrega un nuevo canal de atención temporal en cada capa de transformador. Durante el proceso de entrenamiento, todos los parámetros heredados de CogView2 se congelan, mientras que solo se pueden entrenar los parámetros de los canales temporales. El propósito de estos canales es explorar y analizar las relaciones temporales entre diferentes marcos.
En particular, en este artículo, los autores implementaron un mecanismo Swin Attention extendido para trabajar en escenarios temporales. Un hallazgo esencial es que Swin Attention permite la generación paralela de regiones distantes de diferentes fotogramas. La figura muestra que el token de imagen en el cuadro rojo se puede generar utilizando los tokens de imagen amarillo y verde. Esto significa que mientras se generan las fichas de imagen grises del cuadro i-ésimo, es posible crear simultáneamente la ficha de imagen en el cuadro rojo. Esto acelera aún más el proceso de generación propuesto en este documento.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools