Estás leyendo la publicación: Los investigadores de IA de Google proponen SAVi++: un modelo de video centrado en objetos entrenado para predecir señales de profundidad a partir de una representación de video basada en tragamonedas
La complejidad del mundo natural, que está formado por diferentes entidades, resulta de las acciones combinadas y en gran parte autónomas de las entidades. Para pronosticar el futuro del mundo e influir en ciertos resultados, uno debe comprender esta estructura compositiva.
Los objetos interactúan cuando están juntos, tienen coherencia espacio-temporal y tienen rasgos persistentes y latentes que guían su comportamiento durante largas épocas. En el aprendizaje automático, las representaciones centradas en objetos tienen el potencial de mejorar significativamente la eficiencia del muestreo, la solidez, el razonamiento visual y la interpretabilidad de los algoritmos de aprendizaje, ya que son esenciales para la comprensión humana. Es necesario aprender sobre objetos repetitivos, como vehículos, señales de tráfico y peatones, así como las leyes que rigen sus interacciones, para la generalización en todos los contextos.
Los cerebros humanos no poseen naturalmente la capacidad de agrupar bordes y superficies en representaciones de objetos unitarias, limitadas y persistentes; más bien, esta habilidad se aprende por experiencia a partir de la infancia. Este sesgo inductivo en el aprendizaje profundo se ha propuesto en arquitecturas basadas en ranuras, que dividen la información del objeto en grupos de neuronas que no se superponen pero son intercambiables. La modularidad representacional resultante puede ayudar con la predicción y la inferencia causal para las tareas que vienen después.
Encontrar la estructura compositiva de situaciones visuales dinámicas del mundo real sin supervisión ha sido una gran dificultad en la visión artificial. La primera concentración fue en imágenes RGB sintéticas de un solo cuadro, pero fue difícil expandir este trabajo a video y escenarios más complicados. La comprensión de que una matriz de píxeles de intensidad de color no es la única fuente de información visual fácilmente disponible, al menos no para los sistemas de percepción humanos, fue una comprensión crucial para un mayor avance.
Las innovaciones recientes utilizan el flujo óptico como un objetivo de predicción para crear representaciones centradas en objetos de entornos dinámicos que incluyen elementos escaneados en 3D intrincados y fondos realistas. Para aprender a distinguir entre el fondo y los objetos estáticos, la predicción de movimiento por sí sola no es suficiente. Además, las propias cámaras son sensibles al movimiento en los dominios de aplicaciones del mundo real, como los automóviles autónomos, lo que afecta significativamente el movimiento cuadro a cuadro como una señal de predicción de formas no triviales.
Los investigadores de Google presentaron recientemente un modelo de video mejorado basado en tragamonedas, conocido como SAVi++. SAVi++ aprovecha la información de profundidad a la que se puede acceder fácilmente a través de cámaras RGB-D y sensores LiDAR para obtener mejoras cualitativas en las representaciones centradas en objetos. Sin emplear segmentación directa o supervisión de seguimiento, SAVi++ es el primer modelo entrenado de extremo a extremo basado en ranuras que separa con éxito objetos complicados en secuencias de video naturalistas del mundo real.
Los investigadores descubrieron que SAVi ++ podía manejar películas con formas y fondos complejos, así como una gran cantidad de objetos por escena, en el punto de referencia de video de múltiples objetos (MOVi), que contiene videos sintéticos de alta complejidad visual y dinámica. El método mejoró SAVi al permitir tanto cámaras estacionarias como en movimiento, así como objetos estáticos y dinámicos. En videos de conducción del mundo real del conjunto de datos de Waymo Open, los investigadores demostraron que SAVi++, entrenado con señales de escasa profundidad recopiladas de LiDAR, permite la deconstrucción y el seguimiento de objetos emergentes.
Conclusión
En un estudio reciente, los investigadores de Google demostraron que el seguimiento y la segmentación de objetos se pueden producir utilizando señales de profundidad, que brindan información sobre la geometría de la escena en datos de video a gran escala. Para encontrar un conjunto de cambios sencillo pero efectivo en un modelo de video centrado en objetos (SAVi) de última generación, el equipo utilizó una serie de puntos de referencia de video sintéticos de múltiples objetos con una complejidad creciente. Esto les permitió cerrar la brecha entre los videos de conducción sintéticos simples y los videos de conducción complejos del mundo real. La investigación representa un primer paso hacia el desarrollo de sistemas entrenables completos que pueden aprender a ver el entorno de una manera deconstruida y centrada en objetos sin requerir una estrecha supervisión humana. Este hallazgo muestra que las redes neuronales profundas centradas en objetos no están restringidas fundamentalmente a entornos sintéticos sencillos, a pesar de que todavía hay numerosos problemas sin resolver.
Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘SAVi++: Hacia el aprendizaje centrado en objetos de extremo a extremo a partir de videos del mundo real‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, proyecto.
Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools