Conozca SegGPT: un modelo generalista que realiza tareas de segmentación arbitrarias en imágenes o videos mediante inferencia en contexto

Estás leyendo la publicación: Conozca SegGPT: un modelo generalista que realiza tareas de segmentación arbitrarias en imágenes o videos mediante inferencia en contexto

En visión por computadora, que busca ubicar y reorganizar nociones significativas a nivel de píxel, como primer plano, categoría, instancia de objeto, etc., la segmentación es uno de los desafíos más fundamentales. Para una variedad de tareas de segmentación, incluida la segmentación de primer plano, la segmentación interactiva, la segmentación semántica, la segmentación de instancias y la segmentación panóptica, han logrado avances considerables en los últimos años. Estos modelos de segmentación expertos, sin embargo, están restringidos a tareas particulares, clasificaciones, granularidades, formatos de datos, etc. Se debe entrenar un nuevo modelo cuando se adapta a un nuevo entorno, como segmentar una noción nueva u objetos en videos en lugar de imágenes.

En este estudio, su objetivo es entrenar un solo modelo que pueda manejar una variedad infinita de tareas de segmentación. Esto requiere un trabajo de anotación que requiere mucho tiempo y debe ser más sostenible para muchos trabajos de segmentación. Las principales dificultades radican en dos áreas: (1) incorporar los tipos de datos tan diferentes en el entrenamiento, como parte, semántica, instancia, panóptico, persona, imagen médica, imagen aérea, etc.; y (2) crear un esquema de capacitación generalizable que difiera del aprendizaje multitarea tradicional, que sea flexible en la definición de tareas y pueda manejar tareas que están fuera de su alcance. Para superar estos problemas, los investigadores de la Academia de Beijing, la Universidad de Zhejiang y la Universidad de Pekín presentan SegGPT, un paradigma generalista para segmentar cualquier cosa en contexto.

🔥 Recomendado:  12 mejores empresas para una verificación de VIN gratuita: cómo obtener una verificación de VIN en 2023

Integran muchas tareas de segmentación en un marco de aprendizaje generalista en contexto y ven la segmentación como un formato genérico para la percepción visual. Este marco puede manejar varios tipos de datos de segmentación al convertirlos al mismo formato de imagen. Usando un mapeo de color aleatorio para cada muestra de datos, el problema de entrenamiento de SegGPT se expresa como un problema de coloración en contexto. El objetivo es colorear solo las áreas asociadas, como clases, instancias de objetos, componentes, etc., según el contexto. Al emplear un esquema de colores aleatorio, el modelo se ve obligado a consultar datos contextuales para ejecutar el trabajo dado en lugar de depender de ciertos tonos. Esto permite abordar la formación de una manera más adaptable y genérica.

Los componentes de entrenamiento restantes permanecen igual cuando se emplea un ViT estándar y una pérdida de l1 suave y sencilla. Después del entrenamiento, SegGPT puede usar la inferencia en contexto para ejecutar varias tareas de segmentación en imágenes o videos dadas algunas instancias, como instancia de objeto, cosas, porción, contorno, texto, etc. Sugieren una técnica de conjunto de contexto sencilla pero poderosa, el conjunto destacado, que puede ayudar al modelo a aprovechar el escenario de sugerencias de varios ejemplos. Al adaptar un indicador personalizado para un caso de uso especializado, como la segmentación semántica ADE20K en el dominio, SegGPT también puede funcionar fácilmente como un modelo especializado sin modificar los parámetros del modelo.

Estas son sus principales contribuciones.

(1) Por primera vez, muestran un único modelo generalista que puede completar automáticamente una amplia gama de tareas de segmentación.

🔥 Recomendado:  Convertirse en un asistente virtual de Pinterest | $1000's/Mes

(2) Para diversas tareas, como la segmentación semántica de pocas tomas, la segmentación de objetos de video, la segmentación semántica y la segmentación panóptica, evalúan el SegGPT preentrenado directamente, es decir, sin ajustes finos.

(3) Tanto subjetiva como estadísticamente, sus resultados demuestran grandes habilidades para segmentar objetivos dentro y fuera del dominio. Sin embargo, su estudio no promete lograr nuevos resultados de vanguardia o superar los enfoques especializados existentes en todos los puntos de referencia, ya que creen que un modelo de propósito general puede no ser capaz de manejar ciertas tareas.