Estás leyendo la publicación: Los investigadores de IA de Google proponen ‘CMT-DeepLab’: un marco de aprendizaje automático basado en transformadores para la segmentación panóptica diseñada en torno a la agrupación
Segmentación panóptica (Pan = Todo y Óptica = Visión) es la técnica de Computer Vision que separa cada objeto de la imagen en partes individuales. Después de eso, estas partes se etiquetan en diferentes colores y luego se clasifican. Aún así, la diferencia entre Panoptic y otras técnicas de segmentación es que se ve como la vista global o unificada de la segmentación en lugar de usar dos enfoques diferentes. Solo uno es suficiente. CMT-Deeplab es un marco creado por investigadores científicos de Google Research para facilitar el proceso de creación de un modelo de segmentación panóptica al cambiar el enfoque de sistemas basados en proxy a sistemas de extremo a extremo, lo que mejora todas sus funciones mediante el uso de codificadores de transformadores. La idea central detrás de esto es tomar la entrada y predecir cada objeto en la imagen y luego crear una predicción de máscara binaria utilizando estos objetos y vectores de incrustación de máscara (para desarrollar imágenes de alta definición).
Los transformadores son una arquitectura novedosa que resuelve tareas de secuencia a secuencia mientras maneja dependencias de largo alcance. Los transformadores se utilizan de forma independiente o combinados con CNN (redes neuronales convolucionales), lo que aumenta significativamente las tareas de visión por computadora. Segmentación panóptica basada en proxy: para lograr una salida total, utiliza dos redes neuronales, FCN (Red totalmente convolucional) y Máscara R-CNN, pero arrojó resultados inexactos e inconsistentes. Aún así, con la introducción de un transformador de máscara, puede producir resultados de manera más precisa y confiable. Segmentación panóptica de extremo a extremo: los resultados se crean mediante la combinación de instancias (combinación de detección de cajas y segmentación basada en cajas) y segmentación semántica.
El primer paso comienza con el codificador de píxeles que extrae las características de la imagen, luego las partes se envían al decodificador de píxeles que, debido a la inclusión de Transformers, mejora los píxeles y, mediante el uso de capas de muestreo ascendente, crea objetos de alta resolución, el problema surge. Debido a que la arquitectura del transformador está diseñada para la detección de objetos y no para la segmentación de objetos, y para superar las deficiencias de la arquitectura de tipo de transformador, recurrimos a la agrupación mediante operaciones softmax en diferentes dimensiones con el objetivo de agrupar las consultas de objetos más similares, las operaciones softmax son aplicado a la dimensión espacial de la imagen, para obtener el resultado final, se realiza softmax en las consultas de objetos para garantizar que cada píxel encuentre el píxel más similar entre sí, aunque también hay algunos problemas con este enfoque, uno de los cuales es que las consultas de objetos son escasamente actualizado debido a que el softmax se actualizó a una dimensión muy grande, en segundo lugar, la actualización de salida solo se puede actualizar una vez, por lo tanto, los píxeles solo tienen una oportunidad de actualizar la información. adaptarse a la situación de agrupamiento. La siguiente ecuación resuelve nuestros problemas al actualizar las características del clúster al agrupar las características de píxeles de acuerdo con la asignación del clúster (C son los centros del clúster), lo que mejora significativamente el rendimiento del marco.
ZT × F = (softmaxN (F × CT))T × F.
Ahora tratamos de modificar el decodificador del transformador para resolver nuestros problemas a través de un nuevo enfoque basado en la agrupación a través de métodos como Ruta residual entre las asignaciones de clúster donde apilamos el decodificador del transformador uno encima del otro y luego agregamos una conexión residual entre los resultados de la agrupación. Resolvemos el primer problema de la actualización de consultas dispersas al combinar la actualización del centro del clúster propuesta con la atención cruzada original. Resolvemos el segundo problema utilizando el resultado de la agrupación para realizar una actualización de las características de los píxeles utilizando las características del centro de la agrupación.
En conclusión, el marco CMT-Deeplab mejora significativamente la segmentación panóptica al tiempo que reduce su proceso complejo debido a los sistemas basados de extremo a extremo, lo que ayuda a aumentar la calidad de la predicción a través de transformadores de máscara y redefine las consultas de objetos e incorpora el centro de clúster. actualización, que significativamente no puede enriquecer los mapas de atención cruzada aprendidos y facilita aún más la predicción de segmentación.
Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘CMT-DeepLab: Transformadores de máscara de agrupamiento para segmentación panóptica‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y artículo de referencia.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools