Estás leyendo la publicación: Conozca ‘SegNeXt’, una arquitectura de red neuronal convolucional simple para la segmentación semántica
La segmentación semántica, que trata de dar una categoría semántica a cada píxel, ha despertado mucho interés en la última década como una de las áreas de investigación más fundamentales en visión artificial. Desde los primeros modelos basados en CNN, como la serie FCN y DeepLab, hasta enfoques más modernos basados en transformadores, como SETR y SegFormer, los modelos de segmentación semántica han experimentado un cambio sustancial en la arquitectura de la red. Describen varias características críticas que contienen diferentes modelos al revisar investigaciones previas exitosas de segmentación semántica, como se muestra en la tabla a continuación.
Con base en las observaciones anteriores, sostienen que un modelo de segmentación semántica efectivo debe tener las siguientes características:
- Una red troncal robusta sirve como codificador: la ganancia de rendimiento de los modelos basados en transformadores sobre los modelos anteriores basados en CNN se debe principalmente a una mejor red troncal.
- Intercambio de información a varias escalas: a diferencia de la clasificación de imágenes, que reconoce principalmente un solo elemento, la segmentación semántica es un trabajo de predicción denso que debe manejar objetos de varios tamaños en una sola imagen.
- Conciencia espacial: los modelos pueden segmentar utilizando la atención espacial al priorizar ubicaciones dentro de regiones semánticas.
- La complejidad computacional es baja: Es fundamental cuando se trabaja con fotografías y paisajes urbanos de teledetección de alta resolución.
Teniendo en cuenta el estudio inicial, replantean el diseño de la atención convolucional en este artículo y ofrecen una arquitectura de codificador-decodificador eficiente pero efectiva para la segmentación semántica. A diferencia de los modelos anteriores basados en transformadores que usaban convoluciones de decodificador como refinadores de características, su solución invierte la arquitectura de codificador-decodificador de convolución de transformador. Restauran la arquitectura de los bloques convolucionales típicos y utilizan características convolucionales de múltiples escalas. Esto inspira la atención espacial usando una simple multiplicación por elementos para cada bloque en su codificador. Descubrieron que este método principal de construcción de la conciencia espacial es más eficiente que las circunvoluciones ordinarias y la autoatención en la codificación de la información espacial.
Su red SegNeXt comprende procesos convolucionales, excepto el decodificador, que incluye un módulo Hamburger (Ham) basado en descomposición para la extracción de información global. Recopilan información de varios niveles de varias etapas para el decodificador y utilizan Hamburger para extraer el contexto global. Su técnica puede obtener un contexto de múltiples escalas de local a internacional, lograr la adaptación en las dimensiones geográficas y de canal, y agregar información de niveles bajos a altos en este contexto. Como resultado, su SegNeXt es mucho más eficiente que los enfoques de segmentación anteriores que se basaban principalmente en transformadores.
Como se ve en la figura anterior, SegNeXt supera significativamente a las técnicas basadas en transformadores de corriente. Cuando se trata de imágenes urbanas de alta resolución del conjunto de datos Cityscapes, su SegNeXt-S supera a SegFormer-B2 y requiere solo aproximadamente 1/6 de costo computacional y 1/2 de parámetros. Sus contribuciones se enumeran a continuación:
• Identifican las cualidades de un modelo de segmentación semántica exitoso e introducen SegNeXt, una arquitectura de red personalizada única que estimula la atención espacial a través de características convolucionales de múltiples escalas.
• Demuestran que un codificador que utiliza convoluciones básicas y económicas puede superar a los transformadores de visión, principalmente cuando se procesan detalles de objetos, al mismo tiempo que requiere un costo informático mucho menor.
• En numerosos puntos de referencia de segmentación, incluidos ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context e iSAID, su técnica supera a los métodos de segmentación semántica de última generación por un amplio margen.
Las implementaciones oficiales de Pytorch de los algoritmos de entrenamiento y evaluación de SegNext, así como los modelos preentrenados, están disponibles gratuitamente en GitHub.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘SegNeXt: replanteamiento del diseño de atención convolucional para la segmentación semántica‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools