Investigadores de IA de Stanford y TRI proponen la sonda atemporal (ATP), un nuevo modelo de aprendizaje automático para el análisis de video-lenguaje

Estás leyendo la publicación: Investigadores de IA de Stanford y TRI proponen la sonda atemporal (ATP), un nuevo modelo de aprendizaje automático para el análisis de video-lenguaje

La idea de que la información proporcionada a través de videos se entiende mejor se basa en la observación de que la información se ve a través de numerosas imágenes en lugar de una sola. Sin embargo, ¿por qué la comprensión a través de un video es superior a la comprensión con una sola imagen? Esta pregunta fundamental ha recibido previamente una atención considerable en el campo del reconocimiento de acciones en imágenes editadas. Con su estudio continuado, Stanford espera brindar una respuesta precisa en asociación con el Toyota Research Institute (TRI). Comprender los complejos vínculos temporales y causales de los eventos en las películas y el lenguaje es el objetivo principal de la investigación. Comprender estos sucesos permitirá crear agentes interactivos que puedan absorber información sobre dinámicas sociales y conceptos visuales de su entorno. El equipo quiere expandir el trabajo más allá de los contextos existentes de lenguaje y video porque el lenguaje natural puede describir atributos de eventos más profundos, complicados y dinámicos.

Las líneas de base estándar a menudo incluyen la selección de un fotograma aleatorio o datos promedio entre fotogramas para evaluar el conocimiento de las películas “limitado por la imagen” o atemporal. Sin embargo, dado que se cree que las películas son intrínsecamente ruidosas, colecciones de fotogramas vinculados, esta podría no ser una muestra típica. Debido a varios factores, incluido el desenfoque de movimiento de la cámara, puntos de vista extraños de la cámara, etc., varias investigaciones demostraron que no todos los fotogramas brindan información semántica clara. Esto lleva a la conclusión de que las metodologías típicas pueden no representar el límite de la comprensión a nivel de imagen. La comprensión real a nivel de video comienza en este punto. El equipo presentó Atemporal Probe (ATP), un método novedoso para el análisis del lenguaje de video basado en los avances recientes en la base del lenguaje de imágenes. La estrategia pretende responder de forma más exhaustiva a la pregunta planteada anteriormente. ATP aprende a seleccionar una sola entrada de nivel de imagen de una serie de cuadros de video muestreados débilmente. La arquitectura de ATP incluye varias restricciones de cuello de botella, lo que permite realizar esta elección sin tener en cuenta el tiempo. La precisión de línea de base de los modelos multimodales limitada por la comprensión a nivel de imagen está mucho más limitada por ATP.

🔥 Recomendado:  4 consejos útiles para escritores autónomos principiantes
Fuente: https://aicenter.stanford.edu/news/revisiting-video-video-language-understanding

Los investigadores están ansiosos por trabajar hacia su objetivo a largo plazo de desarrollar agentes interactivos que aprendan sobre eventos globales intrincados a través del video y el lenguaje. Las deficiencias y posibilidades de los puntos de referencia de video-lenguaje actuales se examinaron mediante el uso de ATP para realizar tareas cotidianas, como la respuesta a preguntas en video y la recuperación de texto a video. Sorprendentemente, se demostró que incluso cuando se compara con modelos recientes de lenguaje de video a gran escala y en situaciones diseñadas explícitamente para comparar un conocimiento de nivel de video más excelente, a veces no se requiere una comprensión de la temporalidad del evento para obtener un rendimiento adecuado o de vanguardia. También se investigaron las posibles aplicaciones en el ciclo de ATP para mejorar la construcción de conjuntos de datos y la eficacia y precisión de los modelos de razonamiento a nivel de video. El diseño del modelo ATP planificado y los hallazgos del estudio del equipo también se publicaron recientemente en un artículo.

Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘ Revisitando el “Video” en Video-Language Understanding‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, proyecto, y Blog.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools