Estás leyendo la publicación: Investigadores de la Universidad de Illinois desarrollan XMem; Una arquitectura de segmentación de objetos de video a largo plazo inspirada en el modelo de memoria Atkinson-Shiffrin
La segmentación de objetos de video (VOS) identifica y resalta ciertos elementos objetivo en un video. La mayoría de las técnicas de VOS utilizan una memoria de funciones para almacenar representaciones relevantes de la red profunda de un objeto, ya que la información debe transferirse desde la anotación proporcionada a otros cuadros de video. El enfoque aquí está en la situación semisupervisada, en la que el usuario proporciona la anotación del primer cuadro. Después de esto, el enfoque separa los objetos en todos los cuadros subsiguientes de la manera más correcta posible mientras se ejecuta en tiempo real, en línea y con una pequeña huella de memoria mientras se procesan películas grandes.
Los pesos de una red se utilizan como memoria de funciones en los métodos de aprendizaje en línea. Esto requiere entrenamiento durante las pruebas, lo que retrasa la predicción. Los enfoques recurrentes transmiten con frecuencia información de los fotogramas más recientes a través de una máscara o una representación oculta. Estos enfoques tienden a desviarse y tienen dificultades para tratar las oclusiones. Los enfoques VOS de vanguardia recientes utilizan la atención para conectar representaciones de cuadros anteriores almacenados en la memoria de características con características derivadas del cuadro de consulta recién observado que debe segmentarse. A pesar de su excelente eficiencia, estos enfoques usan una cantidad significativa de RAM de la GPU para mantener las representaciones de fotogramas anteriores.
Por lo general, tienen dificultades para manejar películas de más de un minuto en tecnología de consumo. Algunos métodos se crean principalmente para VOS en películas largas. Sin embargo, con frecuencia pierden la calidad de la segmentación. Estas estrategias, en particular, reducen el tamaño de la representación durante la inserción de la memoria de funciones al fusionar nuevas funciones con las que ya están en la memoria de funciones. Debido a que las características de alta resolución se comprimen inmediatamente, dan como resultado segmentaciones menos precisas. Los investigadores creen que la relación negativa entre el rendimiento y el uso de la memoria de la GPU se debe directamente al empleo de un tipo de memoria de función única. Para aliviar esta restricción, proponen XMem, una arquitectura de memoria unificada.
XMem mantiene tres almacenes de memoria de características independientes pero profundamente conectados, inspirados en el modelo de memoria Atkinson-Shiffrin, que plantea la hipótesis de que la memoria humana consta de tres componentes: una memoria sensorial que se actualiza rápidamente, una memoria de trabajo de alta resolución y una memoria compacta, por lo tanto sostenida durante mucho tiempo. -memoria a término. La memoria sensorial en XMem corresponde a la representación oculta de una GRU que se actualiza en cada fotograma. Ofrece suavidad temporal pero no pronostica el largo plazo debido a la deriva de la representación. Por otro lado, la memoria de trabajo se aglomera a partir de un subconjunto de marcos históricos y los trata a todos por igual sin derivar en el tiempo.
Para gestionar el tamaño de la memoria de trabajo, XMem consolida con frecuencia sus representaciones en la memoria a largo plazo, un método inspirado en el mecanismo de consolidación de la memoria humana. XMem almacena la memoria a largo plazo como una colección de prototipos ultracompactos. Diseñan un enfoque de potenciación de la memoria para reducir el alias causado por el submuestreo agregando información más rica en estos prototipos. Proponen un procedimiento de lectura de memoria de espacio-tiempo XMem: Segmentación de objetos de video a largo plazo 3 para leer de la memoria de trabajo y de largo plazo. La combinación de los tres almacenes de memoria de funciones permite el procesamiento preciso de películas grandes mientras mantiene la utilización de la memoria de la GPU al mínimo.
En el conjunto de datos de Longtime Video, descubren que XMem supera con creces los resultados de última generación anteriores. En particular, en conjuntos de datos de videos cortos, XMem funciona a la par con el estado del arte actual (que no puede manejar videos largos). Presenta almacenes de memoria con múltiples escalas temporales. Los equipa con una operación de lectura de memoria para la segmentación de objetos de video de alta calidad en películas largas y cortas, inspirada en el modelo de memoria Atkinson-Shiffrin. Crea un método de consolidación de memoria que selecciona prototipos representativos de la memoria de trabajo, seguido de un algoritmo de potenciación de memoria que mejora estos prototipos en una representación compacta pero poderosa para el almacenamiento de memoria a largo plazo. La implementación del código está disponible gratuitamente en Github.
Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘XMem: segmentación de objetos de video a largo plazo con un modelo de memoria Atkinson-Shiffrin‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace de github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools