Google AI presenta ‘MV-GPT’, un nuevo marco generativo de capacitación previa para subtítulos de video multimodales

Estás leyendo la publicación: Google AI presenta ‘MV-GPT’, un nuevo marco generativo de capacitación previa para subtítulos de video multimodales

Los sistemas de subtítulos de video multimodal utilizan fotogramas de video y voz para generar descripciones de videos en lenguaje natural. Dichos sistemas son peldaños hacia el objetivo a largo plazo de desarrollar sistemas conversacionales multimodales que se comuniquen sin esfuerzo con los usuarios mientras perciben sus entornos a través de flujos de entrada multimodales.

A diferencia de las tareas de comprensión de videos, donde el desafío principal radica en procesar y comprender los videos de entrada multimodal, el estudio de los subtítulos de video multimodal también incluye el desafío de producir subtítulos a tierra. El método más frecuente para esta tarea es entrenar una red de codificador-decodificador utilizando conjuntamente datos anotados manualmente. Debido a la falta de datos anotados manualmente a gran escala, el estudio de la anotación de subtítulos a tierra para videos requiere mucho trabajo y, a menudo, no es práctico. Investigaciones anteriores, como VideoBERT y CoMVT, utilizan el reconocimiento de voz automático para entrenar previamente a sus modelos en videos sin etiquetar (ASR). Como resultado, solo el codificador de video se transfiere a las siguientes tareas.

Los científicos presentan un novedoso marco de pre-entrenamiento para subtítulos de video multimodal en “Preentrenamiento generativo de extremo a extremo para subtítulos de video multimodal”, que se presentará en CVPR 2022. Este marco, que se refiere al preentrenamiento generativo de video multimodal o MV-GPT, entrena un codificador de video multimodal y un decodificador de oraciones a partir de videos sin etiquetar utilizando una expresión futura como texto de destino y una novela. tarea de generación bidireccional.

🔥 Recomendado:  Descripción del trabajo de Millwright: Plantillas para contratar para su negocio

El experimento muestra que MV-GPT se transfiere efectivamente a subtítulos de video multimodal, logrando un rendimiento de vanguardia en varios puntos de referencia. Además, el codificador de video multimodal es competitivo en múltiples tareas de comprensión de video, incluido VideoQA, recuperación de texto y video y reconocimiento de acciones.

Enunciado futuro como apéndice de señal de texto

Cada clip de video de entrenamiento para subtítulos de video multimodal generalmente se asocia con dos textos: (1) una transcripción de voz alineada con el clip como parte del flujo de entrada multimodal y (2) un subtítulo de destino, que con frecuencia se anota manualmente. Al codificador se le enseña a combinar información de la transcripción con contenido visual, y los subtítulos deseados se usan para entrenar al decodificador durante una generación. Sin embargo, en el caso de videos sin etiquetar, cada clip de video contiene solo una transcripción ASR y ningún subtítulo de destino anotado manualmente. Además, el texto exacto no se puede utilizar como entrada del codificador y como destino del decodificador, ya que esto haría que la generación del destino fuera trivial.

MV-GPT evita esta dificultad utilizando una expresión futura como una señal de texto adicional y habilitando conjuntamente el entrenamiento previo del codificador y el decodificador. Sin embargo, no es ideal para entrenar un modelo para generar declaraciones futuras que, con frecuencia, no se basan en el contenido de entrada.

Disminución bidireccional de la población

El problema de la generación de texto sin conexión a tierra se mitiga mediante la formulación de una pérdida de generación bidireccional que incluye tanto la generación directa como la inversa. La generación en negrita genera expresiones futuras dados marcos ópticos y sus transcripciones correspondientes, lo que permite que el modelo aprenda a fusionar el contenido visual con la transcripción correspondiente. La generación hacia atrás utiliza los marcos visuales del video y las declaraciones futuras para entrenar un modelo para generar una transcripción con texto más fundamentado. La pérdida de generación bidireccional en MV-GPT permite que tanto el codificador como el decodificador se introduzcan para manejar textos con un componente visual vital.

🔥 Recomendado:  15 increíbles ideas de presentación para sorprender a tu audiencia
Fuente: https://arxiv.org/pdf/2201.08264.pdf

Resultados de los subtítulos de video multimodal

Usando la misma arquitectura de modelo y YouCook2 con métricas de evaluación estándar, compare MV-GPT con la capacitación previa existente. Aunque todas las técnicas de entrenamiento previo mejoran el rendimiento de los subtítulos, es esencial entrenar previamente el decodificador junto con el subtitulador para mejorar el rendimiento del modelo.

Después de aplicar un modelo previamente entrenado por MV-GPT a cuatro puntos de referencia para subtítulos: YouCook2, MSR-VTT, Vitt y Activity Net-Captions, el modelo logra un rendimiento de vanguardia con márgenes significativos en los cuatro criterios. MV-GPT demuestra mejoras relativas de más del 12 por ciento en la métrica Meteor y los cuatro puntos de referencia.

Presentar un nuevo marco MV-GPT para el preentrenamiento generativo para subtítulos de video multimodal. El objetivo generativo bidireccional entrena previamente un codificador multimodal y un decodificador de subtítulos utilizando expresiones muestreadas de videos sin etiquetar en diferentes momentos. El modelo preentrenado logra un rendimiento de vanguardia en múltiples puntos de referencia para subtítulos de video y otras tareas para la comprensión de video, incluido VideoQA, recuperación de video y clasificación de acciones.

Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘Preentrenamiento generativo integral para subtítulos de video multimodal‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y correo.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools