Estás leyendo la publicación: OneFormer: un marco de segmentación de imágenes universal que unifica la segmentación con un diseño multitarea Train-Once
Los píxeles se dividen en muchos segmentos durante el proceso de segmentación de la imagen. Dicha categorización puede basarse en instancias o semántica (p. ej., carretera, cielo, edificio). Se puso un esfuerzo de investigación único en estas dos tareas de segmentación en sistemas de segmentación anteriores, que usaban estructuras especializadas. En un intento reciente de combinar la segmentación semántica y de instancias, Kirillov et al. segmentación panóptica sugerida, con píxeles clasificados en segmentos discretos para objetos con formas bien definidas y un segmento amorfo para áreas de fondo amorfas. Sin embargo, en lugar de reunir los proyectos anteriores, este esfuerzo produjo estructuras panópticas únicas y especializadas (ver Figura 1a).
Los desarrollos recientes en topologías panópticas como K-Net, MaskFormer y Mask2Former han cambiado el enfoque del estudio para integrar la segmentación de imágenes. Con tales arquitecturas panópticas, es posible entrenarlas para los tres trabajos y lograr un gran rendimiento sin alterar el diseño. Sin embargo, para rendir al máximo, deben recibir capacitación individualizada para cada tarea (consulte la Figura 1b). La política de capacitación individual genera conjuntos únicos de pesos modelo para cada tarea, lo que requiere más tiempo de capacitación. Solo pueden verse como una estrategia semiuniversal en ese sentido.
Sugieren un marco de segmentación de imágenes universal multitarea (OneFormer) para unificar por completo la segmentación de imágenes, que supera el estado del arte actual en las tres tareas de segmentación de imágenes (consulte la Figura 1c) con solo entrenar una vez en un solo conjunto de datos panópticos . Por ejemplo, para obtener el máximo rendimiento en las tareas de segmentación semántica, de instancias y panóptica, Mask2Former está preparado para 160 000 iteraciones en ADE20K. Esto da como resultado 480 000 iteraciones en el entrenamiento y tres modelos para almacenar y hospedar para la inferencia. Esperan abordar los siguientes problemas a través de este trabajo: (i) ¿Por qué las arquitecturas panópticas existentes no logran completar las tres tareas con un único procedimiento o modelo de entrenamiento?
Postulan que debido a que los enfoques actuales carecen de orientación de tareas en sus diseños, deben entrenar por separado para cada trabajo de segmentación, lo que dificulta la comprensión de las distinciones entre los dominios entre tareas cuando se entrenan de forma conjunta o con un solo modelo. Para abordar este problema, agregan un token de entrada de tarea en el texto, “la tarea es una tarea”, lo que obliga al modelo a depender del trabajo en cuestión. Para garantizar que su modelo sea objetivo en las tareas, muestrean uniformemente “tarea” de “panóptico, instancia, semántica” y la verdad básica relacionada durante su procedimiento de entrenamiento conjunto. Como resultado, su arquitectura está guiada por tareas para el entrenamiento y dinámica por tareas para la inferencia usando solo un modelo.
Generan las etiquetas semánticas y de instancia a partir de las anotaciones panópticas coincidentes durante el entrenamiento porque están impulsadas por la capacidad de los datos panópticos para capturar información tanto semántica como del modelo. Por lo tanto, requieren datos panópticos durante el entrenamiento. Además, reducen el tiempo de capacitación y las necesidades de almacenamiento hasta en 3, lo que hace que la segmentación de imágenes requiera menos recursos y esté más disponible. Su tiempo de entrenamiento combinado, los parámetros del modelo y los FLOP son equivalentes a los de los enfoques actuales. (ii) ¿Cómo puede el método de entrenamiento conjunto único ayudar al modelo multitarea a aprender las diferencias entre tareas y entre clases de manera más efectiva?
Diseñan su marco como un método basado en transformadores, que los tokens de consulta pueden dirigir, en respuesta al éxito reciente de los marcos de transformadores en la visión por computadora. Inicializan sus consultas como repeticiones del token de la tarea (obtenido de la entrada de la tarea) para agregar un contexto específico de la tarea a su modelo. Luego calculan una pérdida de contraste de texto de consulta utilizando el texto derivado de la etiqueta de verdad de campo correspondiente para la tarea muestreada. Según su hipótesis, una pérdida de contraste en las consultas ayuda a guiar el modelo para que se vuelva más sensible a las tareas. Además, reduce las predicciones de categorías incorrectas. Prueban OneFormer en tres conjuntos de datos de segmentación significativos, cada uno con las tres tareas de segmentación: ADE20K, Cityscapes y COCO.
Mediante el uso de un solo modelo capacitado conjuntamente para las tres tareas, OneFormer establece un nuevo estándar. En resumen, han contribuido mayoritariamente:
- Sugieren OneFormer, el primer marco de segmentación de imágenes universal multitarea basado en transformadores, para superar a los marcos existentes en tareas de segmentación semántica, de instancia y panóptica, a pesar de que este último debe capacitarse por separado en cada trabajo utilizando múltiples tiempos de recursos. OneFormer se puede entrenar solo una vez con una única arquitectura, modelo y conjunto de datos universales. Para entrenar su modelo multitarea,
- OneFormer emplea una técnica de entrenamiento conjunto condicionado por tareas, muestreando uniformemente varios dominios de verdad de campo (semántico, de instancia o panóptico).
- Validan OneFormer a través de pruebas rigurosas en tres puntos de referencia clave: ADE20K, Cityscapes y COCO. Como resultado, OneFormer realmente logra el objetivo unificador original de la segmentación panóptica. En comparación con los métodos troncales tradicionales de Swin-L, OneFormer establece un nuevo punto de referencia para el rendimiento de la segmentación en las tres tareas. Se pone aún mejor con las nuevas redes troncales ConvNeXt y DiNAT.