Estás leyendo la publicación: Conozca a Phenaki: un modelo basado en aprendizaje automático para generar videos a partir de indicaciones de texto y utiliza C-ViViT como codificador de video
La generación de texto a imagen es un tema candente en el dominio de la IA, principalmente gracias al lanzamiento de código abierto de difusión estable. ¿Quieres ver una imagen de “un oso de peluche durmiendo en una cama medieval dibujado al estilo Van Gogh”? ¡Ningún problema! Puede pasar un aviso con detalles, y la IA de difusión estable generará una imagen realista para usted.
La locura de la generación X-to-Y que utiliza modelos de difusión no se limita solo a las imágenes. Puede pasar de texto a imagen, de texto a voz, de imagen a imagen y la lista continúa. Los modelos de difusión son los caballo oscuro modelos en el campo de los modelos generativos.
Volvamos a las aplicaciones visuales. Vimos que la generación de imágenes a partir de una descripción funciona bien hoy en día. Pero, ¿qué hay de generar videos? ¿Es posible ver “un oso de peluche nadando bajo el agua con peces de colores”? Phenaki está aquí para responder a esa pregunta.
Esencialmente, un video es un conjunto de imágenes que se muestran consecutivamente para estimular el movimiento. Entonces, ¿eso significa que podemos usar los métodos de generación de imágenes de aprendizaje profundo para crear un video generado? Desafortunadamente, no, este es un problema mucho más complicado.
En primer lugar, el requisito computacional es mucho mayor. Los modelos de texto a imagen de última generación ya están superando los límites, por lo que hacer esto para tareas mucho más complicadas no sería posible con el mismo enfoque. Más importante aún, no hay suficientes conjuntos de datos de “texto a video” de alta calidad disponibles, y sabemos que tener un conjunto de datos de tamaño adecuado es un requisito crucial para entrenar una red neuronal profunda.
Además, se puede argumentar que un video producido debe basarse en una serie de indicaciones o una trama que cuente lo que sucede a lo largo del tiempo porque una sola indicación de texto breve es insuficiente para describir un video en profundidad. ”Un oso de peluche nadando bajo el agua con peces de colores” puede generar una buena imagen, pero para que funcione para la generación de video, necesitaríamos algo mucho más largo y detallado.
Dados todos estos problemas, los autores de Phenaki tenían una tarea desafiante por delante. Generación de video condicional basada en historias. Phenaki es el primer artículo que descubre esta prometedora aplicación.
Dado que no hay un conjunto de datos basado en historias para extraer, una estrategia de aprendizaje profundo estándar de simplemente aprender esta tarea a partir de datos no es factible. En cambio, Phenaki usa un modelo que fue diseñado especialmente para generar un video a partir de una historia dada.
Confiar en los codificadores de video existentes para lograr estas funciones no era una opción porque solo podían decodificar videos de tamaño fijo o codificar fotogramas por separado. Para abordar este problema, proponen y utilizan C-ViViT.
C-ViViT es una estructura de codificador-decodificador con capacidades únicas. Puede explotar información temporal en videos comprimiéndolos en dimensiones temporales y espaciales mientras se mantiene autorregresivo en el tiempo. Esta estructura permite que C-ViViT codifique y decodifique videos de longitud variable.
Además, se utiliza un transformador bidireccional después del C-ViViT para generar video a partir de entradas de texto. El problema de texto a video se modela como un problema de secuencia a secuencia de predicción de tokens de video para incrustaciones de texto.
Este fue un breve resumen de Phenaki, el primer modelo de generación de video condicional basado en historias. La aceleración de los modelos de generación basados en el aprendizaje profundo ha entrado en otro nivel en los últimos meses, y Phenaki fue uno de los últimos estudios en este dominio. Puede encontrar enlaces a continuación si desea obtener más información sobre Phenaki.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘PHENAKI: GENERACIÓN DE VÍDEO DE DURACIÓN VARIABLE A PARTIR DE DESCRIPCIONES TEXTUALES DE DOMINIO ABIERTO‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y código.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools