Box2Mask: un método único para la segmentación de instancias de disparo único que combina el aprendizaje profundo con el modelo de evolución de conjunto de niveles para proporcionar predicciones de máscara precisas con solo…

Estás leyendo la publicación: Box2Mask: un método único para la segmentación de instancias de disparo único que combina el aprendizaje profundo con el modelo de evolución de conjunto de niveles para proporcionar predicciones de máscara precisas con solo…

La segmentación de instancias, útil en aplicaciones como conducción autónoma, manipulación robótica, edición de imágenes, segmentación de celdas, etc., intenta extraer las etiquetas de máscara de píxeles de los objetos interesados. La segmentación de instancias ha logrado avances significativos en los últimos años debido a las poderosas capacidades de aprendizaje de los sofisticados sistemas CNN y transformadores. Sin embargo, muchos de los modelos de segmentación de instancias disponibles se entrenan con un enfoque totalmente supervisado, que se basa en gran medida en las anotaciones a nivel de píxel de la máscara de instancia y da como resultado costos de etiquetado altos y lentos. La segmentación de instancias supervisada por cajas, que utiliza anotaciones de caja simples y eficientes en etiquetas en lugar de etiquetas de máscara por píxeles, se ha ofrecido como una solución al problema mencionado anteriormente. La anotación de cuadro ha ganado mucho interés académico recientemente y hace que la segmentación de instancias sea más accesible para nuevas categorías o tipos de escena. Se han desarrollado algunas técnicas que utilizan datos salientes auxiliares adicionales o técnicas de posprocesamiento como MCG y CRF para producir pseudoetiquetas que permitan la supervisión por píxeles con anotación de cuadro. Sin embargo, estos enfoques requieren varias etapas independientes, lo que complica el proceso de capacitación y agrega más hiperparámetros para ajustar. En COCO, generar una máscara basada en polígonos de un objeto suele tardar 79,2 segundos, pero anotar el cuadro delimitador de un objeto solo lleva 7 segundos.

🔥 Recomendado:  Cleanvoice - Eliminador de ruido de fondo con IA

El modelo de conjunto de niveles estándar, que utiliza implícitamente una función de energía para representar las curvas de límite del objeto, se usa en este estudio para investigar técnicas de modelado de afinidad más confiables para una segmentación de instancias supervisada por cajas eficiente. La función de energía basada en el conjunto de niveles ha mostrado resultados prometedores de segmentación de imágenes al utilizar información de contexto enriquecida, como la intensidad, el color, la apariencia y la forma de los píxeles. Sin embargo, la red está entrenada para pronosticar los límites del objeto con supervisión de píxeles en estos enfoques, que llevan a cabo la evolución del conjunto de niveles de una manera completamente supervisada por máscaras. A diferencia de los métodos anteriores, el objetivo de este estudio es monitorear el entrenamiento de evolución de nivel establecido utilizando simplemente anotaciones de cuadro delimitador. Sugieren específicamente un nuevo método de segmentación de instancias supervisado por cajas llamado Box2Mask que combina suavemente redes neuronales profundas con el modelo de conjunto de niveles para entrenar varias funciones de conjuntos de niveles para el desarrollo de curvas implícitas repetidamente. Su enfoque hace uso de la función de energía Chan-Vese continua convencional. Utilizan información de bajo y alto nivel para desarrollar las curvas de nivel establecido hacia el límite del objeto de manera confiable. Una función de proyección de caja automatizada que ofrece una estimación aproximada del límite deseado inicializa el nivel establecido en cada etapa de la evolución. Para asegurar el desarrollo del conjunto de niveles con consistencia de afinidad local, se crea un módulo de consistencia local basado en una función de núcleo de afinidad que extrae el contexto local y las conexiones espaciales.

🔥 Recomendado:  Inspirándose en la psicología del desarrollo, los investigadores de Deepmind desarrollan un modelo de aprendizaje profundo para aprender física intuitiva

Proporcionan dos tipos de marcos de una sola etapa, un marco basado en CNN y un marco basado en transformadores, para respaldar la evolución del conjunto de niveles. Cada marco también incluye dos elementos cruciales más, decodificadores conscientes de instancias (IAD) y asignaciones de coincidencia a nivel de caja, que están equipados con varias metodologías además de la sección de evolución del conjunto de niveles. El IAD aprende a incrustar las características de la instancia para construir un mapa de máscara consciente de la instancia de imagen completa como la predicción del conjunto de niveles en función de la instancia de destino de entrada. Mediante el uso de cuadros delimitadores reales, la asignación de correspondencia basada en cuadros aprende a identificar las muestras de mapa de máscara de alta calidad como los positivos. Su documento de la conferencia detalló los hallazgos iniciales de su investigación. Comienzan convirtiendo su enfoque en esta edición ampliada de la revista del marco basado en CNN al marco basado en transformadores. Implementan un método de coincidencia bipartito a nivel de caja para la asignación de etiquetas e integran características de instancia para el aprendizaje dinámico del núcleo utilizando el decodificador de transformador. Al minimizar la función de energía de nivel establecido diferenciable, el mapa de máscara de cada instancia puede optimizarse iterativamente dentro de su correspondiente anotación de cuadro delimitador.

Además, crean un módulo de consistencia local basado en una función de kernel de afinidad, que extrae las similitudes de píxeles y los vínculos espaciales dentro del vecindario para aliviar la falta de homogeneidad de la intensidad basada en la región de la evolución del conjunto de niveles. En cinco bancos de pruebas difíciles, se llevan a cabo pruebas exhaustivas, por ejemplo, segmentación en varias circunstancias, como escenas generales (como COCO y Pascal VOC), imágenes de texto de escena, médicas y de detección remota. Los mejores resultados cuantitativos y cualitativos muestran cuán exitoso es el enfoque Box2Mask sugerido. En particular, mejora el AP de última generación anterior del 33,4 % al 38,3 % AP en COCO con la red troncal ResNet-101 y del 38,3 % al 43,2 % AP en Pascal VOC. Supera ciertas técnicas comunes completamente supervisadas por máscara utilizando el mismo marco básico, como Mask R-CNN, SOLO y PolarMask. Su Box2Mask puede obtener un AP de máscara del 42,4 % en COCO con la red troncal Swin-Transformer grande (Swin-L) más fuerte, comparable a los algoritmos previamente bien establecidos totalmente supervisados ​​por máscara. Varias comparaciones visuales se muestran en la siguiente figura. Se puede observar que las predicciones de máscara de su método a menudo tienen una mayor calidad y detalle que las técnicas más modernas de BoxInst y DiscoBox. El repositorio de código es de código abierto en GitHub.

🔥 Recomendado:  Comprender la serofobia en línea: cómo está evolucionando el discurso de odio contra las personas que viven con el VIH y el SIDA