Estás leyendo la publicación: Investigadores de China presentan un método de re-atención llamado transformador de refinamiento de token (TRT) que captura la semántica a nivel de objeto para la tarea de WSOL
La localización de objetos, una tarea fundamental de visión por computadora, es crucial para muchas aplicaciones basadas en visión por computadora. Si bien los enfoques supervisados utilizan etiquetas de ubicación manuales para aprender a localizar los objetos directamente, la precisión de la localización se ve afectada por etiquetas de ubicación incompletas o asignadas incorrectamente, y el costo del etiquetado manual también debería ser relativamente alto. En la comunidad de Computer Vision, la localización de objetos con supervisión débil (WSOL), que utiliza etiquetas a nivel de imagen, es una tarea desafiante y bien establecida. La eficacia de las redes neuronales profundas en la detección de objetos ha llamado la atención de WSOL.
Se han propuesto varios enfoques en la era del aprendizaje profundo para la tarea WSOL. Algunos métodos utilizan la técnica del mapa de activación de clase (CAM) para la localización. Aunque los enfoques basados en CAM son integrales y prácticos, tienden a detectar las partes más discriminatorias del objeto. Más recientemente, con el surgimiento de las transformadas de visión y su desempeño prometedor, algunos trabajos se han interesado en usarlas para la tarea WSOL. Sin embargo, el ruido de fondo se introduce inevitablemente porque los transformadores de visión crean tokens al dividir una imagen en muchos parches ordenados y calcular las relaciones globales entre los tokens.
Para abordar este problema, los investigadores de China sugieren una técnica de re-atención basada en el transformador de refinamiento de fichas (TRT).
La red presentada en este documento consta de un módulo de transformador de visión, Deit-Base entrenado previamente en ImageNet-1K, seguido de dos ramas. La primera rama es el Módulo de puntuación de prioridad de token (TPSM), cuyo objetivo es eliminar la respuesta de fondo irreverente para resaltar las regiones objetivo. TPSM aspira a volver a prestar atención a los tokens de parche con una nueva estrategia de umbral adaptativo. Más en detalle, esta rama se compone de tres componentes. En la primera etapa, se genera un mapa de atención preliminar basado en las dependencias de largo alcance de los tokens de clase y los tokens de parche sobre los bloques de transformadores. En la segunda etapa, se aplica una estrategia de umbralización adaptativa para descartar tokens de parche con respuestas altas en el mapa de atención preliminar. En el paso final, se aplica una operación de atención a los tokens seleccionados para detectar relaciones globales más relevantes. Por otro lado, la segunda rama de la red propuesta tiene como objetivo calcular el mapa de activación de clase estándar. El funcionamiento de la red es el siguiente. Primero, la imagen de entrada se divide en varias partes que no se superponen y se pasa a través del transformador. Luego, la salida del transformador se suministra a ambas ramas. Después de eso, la pérdida de entropía cruzada ampliamente utilizada se usa durante el entrenamiento para evaluar la similitud entre la salida y la realidad del terreno en ambas ramas. La técnica AutoAugment también se utiliza en el paso de entrenamiento para garantizar el aumento de datos.
La evaluación del enfoque propuesto se lleva a cabo sobre dos conjuntos de datos públicos, ILSVRC y CUB-200-2011. Además, se utilizaron tres métricas: Gt-Known Loc.Acc, op-1/Top-5 Loc.Acc y MaxBoxAccV2. Una comparación con los enfoques basados en CAM y transformadores del estado del arte demuestra que TRT supera a los trabajos anteriores por un amplio margen en los dos conjuntos de datos. Un estudio de ablación demostró que el módulo de atención mejora la precisión de la red general.
En este artículo, hemos visto una descripción general de un nuevo método de localización de objetos con supervisión débil, TRT, que aprovecha las ventajas de los transformadores, los mapas de activación de clases y la re-atención. TRT elimina con éxito los efectos del ruido de fondo causado por el transformador y se enfoca en el objeto de destino. Numerosas pruebas en dos puntos de referencia muestran que el método sugerido funciona mejor que los enfoques existentes.
Este artículo está escrito como un artículo de resumen de investigación por el personal de investigación de Marktechpost basado en el trabajo de investigación ‘TRANSFORMADOR DE RE-ATENCIÓN PARA LOCALIZACIÓN DE OBJETOS DÉBILMENTE SUPERVISADOS‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools