Red de atención inversa (RAN) en la segmentación de imágenes: hacia la IA

Estás leyendo la publicación: Red de atención inversa (RAN) en la segmentación de imágenes: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Tabla de contenido

· ⭐️ Problemas
· ⭐️ Una solución
· ⭐ ️Red de atención inversa (RAN)
Rama inversa (RB)
Ramal de Atención Reversa (RAB)
Combina el resultado
· ⭐️ Entrenamiento
· ⭐️ Rendimiento
· Citación

⭐️ Problemas

  • La mayoría de los métodos de segmentación semántica basados ​​en CNN se enfocan simplemente en hacer las predicciones correctas sin mecanismos que enseñan al modelo a discernir la diferencia entre clases. ()
  • Las características de alto nivel se comparten en diferentes clases debido a la similitud visual entre las clases, lo que puede generar resultados confusos en regiones que contienen la límites de diferentes clases (por ejemplo, fondo con un objeto porque tienen similar) o cuando se mezclan.

Para comprender mejor el problema, consulte la Fig. 1. Como se ve en el mapa de calor de atención, es obvio que la mayoría de los modelos codificadores-descodificadores actuales tendrían fuertes activaciones neuronales en las partes en las que dos objetos están “mezclados” juntos (), donde el modelo no debería prestar demasiada atención a esas partes “mixtas” durante las predicciones.

⭐️ Una solución

  • Los autores idearon un mecanismo para identificar esas regiones especiales mixtas y amplificar las activaciones más débiles para capturar el objeto objetivo, de modo que la red aprende no solo a discernir la clase de fondo, sino que también aprende a discernir diferentes objetos, todos presentes en la imagen.
🔥 Recomendado:  Más de 40 ideas fantásticas para quedarse en casa para parejas

Por eso, propusieron una arquitectura novedosa y la bautizaron”.Red de atención inversa” (CORRIÓ) para abordar los problemas antes mencionados.

En RAN, hay dos ramas diferentes () diseñadas para aprender las características de fondo y las características del objeto, respectivamente.

para seguir resaltar el conocimiento aprendido de la clase de objeto, un estructura de atención inversa está designado para generar por clase mascarillas para amplificar las activaciones de la clase de objeto en la región confusa.

Por último, las predicciones se fusionan para producir la predicción final.

⭐ ️Red de atención inversa (RAN)

Para tener una comprensión más detallada del modelo propuesto, consulte la Fig. 3.

Para dividir el proceso en unos pocos pasos después de proporcionar la imagen de entrada:

  • Se genera un mapa de características utilizando una arquitectura modelo seleccionada () para aprender las características de los objetos.
  • Luego, el mapa se divide en dos ramas.

rama inversa (RB)

  • De color amarillo, el modelo primero entrena un CONV_rev capa para aprender el “clase de objeto inverso” explícitamente ().
  • Para obtener la clase de objeto inversa, el fondo y otras clases se establecen en 1, mientras que la clase de objeto se establece en 0.
  • Sin embargo, cuando se trata de un problema de segmentación multiclase, se suele utilizar una alternativa invirtiendo el signo de todas las activaciones de clase () antes de alimentar al clasificador basado en softmax. Este enfoque permite que el CONV_rev Capa que se entrenará usando la misma etiqueta de verdad de campo en cuanto a clase.
🔥 Recomendado:  8 consejos para usar imágenes en los anuncios de Facebook

Ramal de Atención Reversa (RAB)

  • En lugar de aplicar directamente sustracciones por elementos a la predicción original mediante las activaciones de la rama inversa debido a un peor rendimiento, el Sucursal Atención Inversa se propone resaltar las regiones pasadas por alto por la predicción original ( ). La salida de la atención inversa generaría una máscara orientada a la clase para amplificar el mapa de activación inversa.
  • Como se muestra en la Fig. 3 y la Fig. 5, el mapa de características inicial de la imagen de entrada se introduce en el CONV_org capa.
  • Luego, los valores de píxel del mapa de características resultante son invertidos por el NEG bloquear.
  • Entonces el sigmoideo La función se aplica para convertir valores de píxeles entre [0, 1]antes de enviar el mapa de características al mapa de atención, donde se aplica una máscara de atención.
  • Los pasos antes mencionados podrían resumirse en la Fórmula 1, donde i, j indican la ubicación del píxel.
  • Por lo tanto, la región con respuestas pequeñas o negativas será destacada por NEG y el sigmoideo operaciones, pero las áreas de activaciones positivas (o puntajes seguros) serán suprimidas en la rama de atención inversa.

Combina el resultado

  • Luego, el mapa de la Sucursal Atención Inversa se multiplica elementalmente por el Rama inversa. El mapa resultante se resta de la predicción original para generar la predicción final.

⭐️ Entrenamiento

Esto está más allá del alcance de este artículo, por lo que solo le mostraremos el texto original del artículo:

⭐️ Rendimiento

¡Gracias! ❤️

Citación

[1] Segmentación semántica con atención inversa

🔥 Recomendado:  OpenSea ahora es compatible con NFT integrados en la red Optimism de capa 2 de Ethereum


Explicación: la red de atención inversa (RAN) en la segmentación de imágenes se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA

Tabla de Contenido