La última investigación de visión por computadora en Microsoft explica cómo este método propuesto adapta los modelos de imagen de lenguaje preentrenado al reconocimiento de video

Estás leyendo la publicación: La última investigación de visión por computadora en Microsoft explica cómo este método propuesto adapta los modelos de imagen de lenguaje preentrenado al reconocimiento de video

Numerosas aplicaciones de visión dependen en gran medida del reconocimiento de video, incluida la conducción autónoma, el análisis de videos deportivos y la recomendación de microvideo. En esta investigación se muestra un modelo de video temporal para hacer uso de la información temporal en videos que consta de dos partes esenciales: un transformador de integración de múltiples cuadros y un transformador de comunicación de cuadros cruzados. Además, el codificador de texto se entrena previamente en modelos de imagen de lenguaje y se expande con un esquema de indicaciones específico de video para adquirir una representación de texto discriminatoria para un video.

Esta investigación utiliza texto como supervisión porque contiene más información semántica. En lugar de comenzar desde cero, este enfoque se basa en modelos de lenguaje e imagen anteriores y los amplía con modelos temporales de video y mensajes textuales adaptables al video. En la siguiente figura se muestra una descripción general del marco propuesto.

Fuente: https://arxiv.org/pdf/2208.02816v1.pdf

El transformador de fotogramas cruzados acepta fotogramas sin procesar como entrada y genera una representación a nivel de fotograma utilizando un modelo de imagen de lenguaje previamente entrenado al tiempo que permite un intercambio de información entre fotogramas. Después de eso, el transformador de integración de múltiples cuadros combina las representaciones a nivel de cuadro y las funciones de salida de video. Esta investigación sugiere un método de ayuda que se puede aprender para crear representaciones textuales automáticamente. Cada bloque del módulo de avisos específico de video comprende una red de autoatención de varios cabezales (MHSA) acompañada de una red de avance para aprender los avisos. Los experimentos de este trabajo se llevan a cabo en varios entornos, incluidos cero disparos, pocos disparos y supervisión completa.

🔥 Recomendado:  Google AI propone un nuevo marco de modelado generativo llamado 'EHR-Safe' para generar datos de EHR sintéticos altamente realistas y que preservan la privacidad

En experimentos totalmente supervisados, todos los modelos se entrenaron en 32 GPU NVIDIA 32G V100. El enfoque propuesto supera a otros enfoques de vanguardia en comparación con los métodos entrenados en ImageNet-21k, entrenamiento previo de imágenes a escala web y ActionCLIP. Los resultados eficientes se deben principalmente a dos factores: 1) El modelo de atención de fotogramas cruzados puede modelar eficazmente las dependencias temporales de los fotogramas de vídeo. 2) La transferencia exitosa de la representación conjunta lenguaje-imagen a videos demuestra su fuerte capacidad de generalización para el reconocimiento.

En el reconocimiento de video de disparo cero, las categorías en el conjunto de prueba se ocultan del modelo durante el entrenamiento, lo que lo convierte en un gran desafío. X-CLIP-B/16 está preentrenado en Kinetics-400 con 32 fotogramas para experimentos Zero-shot. En el aprendizaje de disparo cero, este trabajo supera a otros enfoques en los puntos de referencia HMDB-51, Kinetics-600 y UCF-101.

En el enfoque de pocas tomas, este trabajo se compara con algunos métodos representativos, a saber, TimeSformer, TSM y Swin. Se ha observado que la diferencia de rendimiento entre el método propuesto y otros se reduce a medida que aumenta el número de muestras. Demuestra que aumentar la cantidad de datos puede reducir el sobreajuste en otras técnicas.

En los estudios de ablación, con fines de clasificación, se crea una línea de base sencilla llamada CLIP-Mean al promediar las características de CLIP en todos los fotogramas de video. Se ha descubierto que la selección del transformador original en CLIP con el mecanismo de comunicación de marco cruzado propuesto, seguido de la adición de un transformador de integración de marco múltiple (MIT) de 1 capa, puede mejorar aún más la precisión. El rendimiento en una configuración totalmente supervisada se puede mejorar ajustando el codificador de imagen, mientras que la memoria CUDA se puede reducir congelando el codificador de texto a expensas de una ligera caída en el rendimiento. Para la configuración de pocos disparos, se ha observado que el ajuste fino del codificador de texto obtiene los 2 mejores resultados, ya que el sobreajuste es menor debido a las pocas muestras. El ajuste fino de los codificadores de imagen y texto produce los mejores resultados para la configuración de disparo cero.

🔥 Recomendado:  ¿Cómo quiere el ejército indio usar la IA?

La información de texto puede proporcionar ganancias medibles en experimentos de pocos disparos y totalmente supervisados. Se utiliza una capa totalmente conectada inicializada aleatoriamente como cabeza de clasificación en lugar del codificador de texto para evaluar la influencia del texto. Sin embargo, el modelo no puede adaptarse a la configuración de disparo cero porque no hay datos para inicializar el cabezal. Este trabajo compara el muestreo disperso y el muestreo denso. El muestreo disperso supera al muestreo denso en el entrenamiento y la inferencia, independientemente del número de fotogramas y vistas que se utilicen. Los resultados muestran que los modelos multimodales utilizados con muestreo disperso son robustos al número de vistas.

Por lo tanto, esta investigación emplea un método sencillo para adaptar modelos de imágenes de lenguaje previamente entrenados para el reconocimiento de video. Se propone un mecanismo de atención entre fotogramas, que permite el intercambio directo de información entre fotogramas para capturar la información temporal. Se desarrolla una técnica de indicación específica del video para producir una representación textual discriminativa a nivel de instancia. Extensos experimentos demuestran la eficacia de este trabajo en tres escenarios de aprendizaje diferentes.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Expansión de modelos preentrenados de idioma e imagen para el reconocimiento general de video‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools