¿Cómo se realiza la segmentación de imágenes usando Image-Level Supervision?

Estás leyendo la publicación: ¿Cómo se realiza la segmentación de imágenes usando Image-Level Supervision?

Para lograr un mejor rendimiento, la segmentación semántica basada en redes neuronales profundas generalmente requiere anotaciones costosas a gran escala para el entrenamiento. Algunos investigadores han intentado recientemente utilizar etiquetas a nivel de objeto (p. ej., cuadros delimitadores) o etiquetas a nivel de imagen para evitar las anotaciones de segmentación por píxeles, que son necesarias para la mayoría de los métodos (p. ej., categorías de imágenes). Entonces, en este artículo, hablaremos sobre cómo segmentar imágenes a nivel de imagen utilizando el enfoque de supervisión a nivel de imagen. A continuación se presentan los puntos principales que se discutirán en este artículo.

Tabla de contenido

  1. Segmentación semántica
  2. ¿Qué es la segmentación de instancias?
  3. Tipos de supervisión para la segmentación
  4. Métodos de trabajo

Comencemos la discusión entendiendo la segmentación semántica.

Segmentación semántica

La segmentación semántica de imágenes es el problema de asignar los píxeles de una imagen a un conjunto predefinido de etiquetas en función de la estructura semántica a la que pertenece el píxel. Para calcular la distribución de probabilidad sobre las clases para cada píxel, los modelos más exitosos para la segmentación semántica de imágenes generalmente usan una variación de CNN.

Durante la inferencia, estas distribuciones se alimentan como potenciales unarios a campos aleatorios condicionales (CRF) completamente conectados con potenciales de borde gaussiano. El CRF se utiliza para inferir el etiquetado conjunto de los píxeles de la imagen. Los campos aleatorios condicionales (CRF) son la herramienta de modelado estadístico utilizada para la predicción estructurada en el reconocimiento de patrones y el procesamiento de imágenes.

La segmentación semántica exitosa de imágenes requiere acceso a una gran cantidad de imágenes densamente etiquetadas. El etiquetado denso de imágenes, por otro lado, es un proceso costoso y lento. Como resultado, el número de imágenes densamente etiquetadas disponibles suele ser una proporción insignificante del conjunto total de imágenes. Como resultado, los modelos que se basan únicamente en imágenes densamente etiquetadas tienen un alcance limitado. En lo sucesivo, estos modelos se denominarán modelos totalmente supervisados.

Debido a las limitaciones de los modelos completamente supervisados, se han desarrollado modelos que pueden incorporar imágenes débilmente etiquetadas para entrenamiento. Estos incluyen modelos que usan un cuadro delimitador antes, una pequeña cantidad de puntos por clase y etiquetas de nivel de imagen. Los modelos que se basan únicamente en etiquetas a nivel de imagen son de particular interés, ya que la web proporciona un suministro casi ilimitado de imágenes con anotaciones deficientes.

En la siguiente sección, veremos un modelo propuesto recientemente que aprende a generar máscaras de segmentación solo a partir de etiquetas de nivel de imagen, sin la ayuda de señales de localización o máscaras de prominencia. Antes de eso, repasaremos la segmentación de instancias y los diferentes tipos de supervisión para la segmentación, ya que ambos son relevantes.

🔥 Recomendado:  Cómo instalar la aplicación Lenox en Firestick

¿Qué es la segmentación de instancias?

Una de las tareas más difíciles en visión artificial es la segmentación de instancias. Sin embargo, obtener las etiquetas por píxel requeridas por la mayoría de los métodos de segmentación de instancias lleva mucho tiempo y es costoso. Los enfoques actuales para superar este problema se basan en etiquetas más débiles (como etiquetas a nivel de imagen) y pseudoetiquetas obtenidas a través de métodos de propuesta de objetos.

Si bien la mayoría de estos métodos son para la detección de objetos y la segmentación semántica, la tarea es categorizar cada píxel de objeto y distinguir entre instancias de objetos. Los métodos más recientes se basan en redes profundas y funcionan en dos pasos: primero detectan objetos y luego los segmentan. Mask-RCNN, por ejemplo, emplea Faster-RCNN para la detección y una red FCN para la segmentación.

Tipos de supervisión para la segmentación

Supervisión débil

Debido a que la obtención de etiquetas por píxel requiere mucho tiempo, han surgido muchos métodos poco supervisados ​​que pueden usar etiquetas que son mucho más baratas de obtener. Los cuadros delimitadores, los garabatos, los puntos y las anotaciones a nivel de imagen son ejemplos de etiquetas. El conjunto de datos en la configuración de supervisión débil, por otro lado, consta de imágenes y anotaciones asociadas que son relativamente fáciles de obtener, como etiquetas/etiquetas de objetos en la imagen.

Etiquetas a nivel de imagen como supervisión débil

Debido a su bajo costo, la adquisición de etiquetas a nivel de imagen es una forma atractiva de anotación. El anotador solo necesita decir si una clase de objeto en particular aparece o no en una imagen, no cuántos de ellos hay. Si bien este tipo de anotación está ganando popularidad en el mundo académico, la mayoría de los métodos propuestos son para la segmentación semántica.

Recientemente se realizaron algunos trabajos para esta superficie de configuración de problemas. Usando el mapa de activación de clase (CAM), pudimos identificar no solo un mapa de calor que representa aproximadamente las regiones donde se ubican los objetos, sino también picos en ese mapa de calor que representan las ubicaciones de diferentes objetos.

Métodos de trabajo

En esta sección, describiremos brevemente dos modelos de segmentación de imágenes basados ​​en la supervisión a nivel de imagen.

Segmentación por pseudo etiquetas

Este método es propuesto por Issam H. Laradji et al que puede entrenar de manera efectiva con etiquetas de nivel de imagen, que son mucho menos costosas de obtener.

Fundamentalmente, el método de segmentación de instancias con supervisión débil (WISE) se basa en el método de hoja de ruta probabilística (PRM) al entrenar un método completamente supervisado, Mask R-CNN, con sus pseudo máscaras de salida. Debido a que Mask R-CNN es potencialmente resistente a las pseudomáscaras ruidosas, y las etiquetas ruidosas dentro de estas máscaras pueden ignorarse durante el entrenamiento porque potencialmente no están correlacionadas, este procedimiento es efectivo.

🔥 Recomendado:  Cómo contratar y capacitar a los mejores asistentes virtuales de Filipinas

A continuación se muestra la arquitectura de este método cuando se está entrenando.

Fuente

El primer componente (mostrado en azul arriba) aprende a clasificar las imágenes en el conjunto de datos. El clasificador genera primero un mapa de activación de clases (CAM) y luego utiliza una capa de estimulación máxima (PSL) para obtener los máximos locales de la CAM. La pérdida de clasificación se calcula usando el promedio de estos máximos locales para entrenar al clasificador.

Debido a que los picos CAM representan objetos ubicados, elige una propuesta para cada uno de estos objetos con el fin de generar pseudo máscaras. El segundo componente (que se muestra en verde) utiliza estas pseudomáscaras para entrenar una Máscara R-CNN.

Para resumir, este enfoque de segmentación de instancias con supervisión a nivel de imagen consta de dos pasos principales: (1) obtener pseudomáscaras para las imágenes de entrenamiento en función de sus etiquetas de nivel de imagen reales; y (2) entrenar un método de segmentación de instancia totalmente supervisado en estas pseudomáscaras (que se muestra en la figura anterior).

Este marco se basa en dos componentes: una red que genera pseudomáscaras entrenando un PRM en etiquetas a nivel de imagen y aprovechando los métodos de propuesta de objetos, y una máscara R-CNN es un método de segmentación de instancias completamente supervisado.

Estimador de segmentación por etiqueta de píxel

Este modelo es propuesto por Gaurav Pandey et al que aprende a generar máscaras de segmentación solo a partir de etiquetas de nivel de imagen, sin el uso de señales de localización o máscaras de prominencia. En la salida de una CNN, aplicamos una pérdida de etiqueta de píxel, así como una pérdida de vecindario. Debido a que las etiquetas de píxeles reales no están disponibles, la salida de CNN se asigna a etiquetas de píxeles auxiliares para obtener una máscara de segmentación aproximada.

La pérdida de vecindad hace cumplir las restricciones impuestas por el campo aleatorio condicional en la salida de CNN, obligándolo a generar máscaras de segmentación nítidas que se alinean con el límite del objeto.

A continuación se muestra la arquitectura de este modelo.

Fuente

Como se muestra arriba, se utiliza una red totalmente convolucional para generar una distribución de máscaras de sobresegmentación p(z|x) a partir de la imagen de entrada. Para generar qaux(z|x), el estimador de etiquetas de píxeles incorpora información de etiquetas de imágenes en la distribución.

🔥 Recomendado:  Una guía para la ingeniería de características en series temporales con Tsfresh

Obliga a la salida de la red de segmentación a estar cerca de esta distribución actualizada. Al mismo tiempo, la pérdida de vecindad obliga a que la salida de la red de segmentación esté cerca de la distribución calculada a partir de sus vecinos.

El procedimiento puede ser detallado. Una red de segmentación recibe una imagen y la salida es una distribución sobre las etiquetas para cada ubicación de píxel p(z|x). Esta distribución se conoce como la distribución predicha porque es la única que se requerirá durante la inferencia. Para asegurarse de que la distribución predicha sea una máscara de segmentación válida para la imagen de entrada.

Como resultado, impone una serie de pérdidas en la distribución prevista. El estimador de etiqueta de píxel, en particular, incorpora información de etiqueta de imagen en la distribución predicha para generar una distribución sobre etiquetas qaux a nivel de píxel.

Debido a que las etiquetas de nivel de píxel real no están disponibles, esta distribución se puede considerar como una verdad básica auxiliar. La verdad de tierra auxiliar se utiliza para entrenar la red de segmentación. A continuación, el estimador de vecindario calcula una versión suave de la distribución de salida promediando la salida de los vecinos para cada ubicación.

Ultimas palabras

A través de esta publicación, hemos discutido la segmentación de imágenes en la que hemos visto qué es la segmentación semántica, la segmentación de instancias y los principales tipos de supervisión que se utilizan al realizar tareas de segmentación. Por último, discutimos dos métodos de segmentación de imágenes basados ​​en la supervisión a nivel de imagen.

El primer método emplea una canalización de dos etapas para el entrenamiento de etiquetas a nivel de imagen. Utiliza mapas de activación de clase con una capa de estimulación máxima en la primera etapa. En la segunda etapa, Mask R-CNN se utiliza para entrenar con las pseudomáscaras de forma totalmente supervisada. El segundo modelo se basa en etiquetas a nivel de imagen y se basa en una segmentación de imágenes semántica débilmente supervisada.

Referencias