Estás leyendo la publicación: Los investigadores de NVIDIA proponen un transformador de visión de contexto global (GC ViT): una arquitectura novedosa que mejora la utilización de parámetros y computación
Vision Transformer (ViT) se ha convertido en una de las arquitecturas más avanzadas para los problemas de visión por computadora (CV) en las arquitecturas de transformadores contemporáneas asociadas con el procesamiento del lenguaje natural. En comparación con las técnicas tradicionales de CNN, este modelo basado en transformador demuestra capacidades excepcionales en el modelado de información de corto y largo alcance. La complejidad de computación cuadrática que exige ViT, que hace que el modelado de imágenes de alta resolución sea prohibitivamente costoso, es la limitación fundamental para el desarrollo y la aplicación de ViT. Un equipo de investigadores de NVIDIA ha propuesto un diseño de ViT jerárquico único pero sencillo denominado Transformador de visión de contexto global (GC ViT). Los módulos globales de autoatención y generación de tokens de esta arquitectura permiten un modelado efectivo sin cálculos costosos al tiempo que brindan un rendimiento de vanguardia en varias tareas de visión por computadora. El equipo ha propuesto esta arquitectura en su artículo reciente titulado Global Context Vision Transformers.
La arquitectura GC ViT tiene un marco jerárquico que captura fácilmente representaciones de características en varias resoluciones. Cuando se le da una imagen de entrada, el modelo aplica una capa convolucional predefinida con el relleno adecuado para producir parches superpuestos. Según el equipo de investigación, este enfoque se puede utilizar como un marco general para varias tareas de visión por computadora, incluida la clasificación, detección y segmentación de instancias. La construcción simple del modelo, que permite el modelado de conexiones de corto y largo alcance mediante la captura de información contextual global, reduce la necesidad de cálculos complejos. El GC ViT propuesto supera a los modelos basados en CNN y ViT por un amplio margen, logrando nuevos puntos de referencia de última generación en el conjunto de datos ImageNet-1K para varios tamaños de modelo y FLOP. GC ViT también logra un rendimiento SOTA en los conjuntos de datos MS COCO y ADE20K para la detección de objetos y la segmentación semántica.
Cada etapa de procesamiento de GC ViT alterna entre módulos de autoatención locales y globales para extraer características espaciales. El mecanismo de autoatención global accede a las funciones innovadoras del Global Token Generator. Las características generadas luego se transmiten a través de una agrupación promedio y capas lineales para proporcionar una incrustación para las tareas posteriores. En sus experimentos empíricos, los investigadores probaron el GC ViT propuesto en tareas CV como clasificación de imágenes, detección de objeciones, segmentación de instancias y segmentación semántica. La arquitectura propuesta por el equipo se puede resumir para capturar de manera eficiente el contexto general y lograr el rendimiento de SOTA en las tareas de CV. Aunque GC ViT no aumenta el costo computacional, la capacitación sigue siendo algo costosa, independientemente de la arquitectura del transformador. Los investigadores agregan que estrategias como la precisión reducida o la cuantificación podrían hacer que el entrenamiento de GC ViT sea más efectivo. También se puede acceder al código GC ViT en la página de GitHub del proyecto.
Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘Transformadores de visión de contexto global‘. Todo el crédito por esta investigación es para los investigadores de este proyecto. Revisar la papel, github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools