Estás leyendo la publicación: Investigadores de China proponen el modelo de red de atención híbrida basado en inteligencia artificial (BA-CNN) para implementar un algoritmo de reconocimiento de aeronaves
La clasificación de aeronaves es una tarea ampliamente estudiada. Se considera una clasificación de imágenes de grano fino (FGVC) ya que todas las imágenes pertenecen a la misma clase. Debido a la ligera variación entre clases y la alta variación intraclase, FGVC es un problema desafiante. Con la aparición de nuevas herramientas de aprendizaje automático, como el aprendizaje profundo en los últimos años, los modelos relacionados con la clasificación de aeronaves se han vuelto más precisos.
Generalmente, los trabajos que se han interesado en la clasificación de aeronaves se pueden separar en dos enfoques: métodos basados en el procesamiento tradicional de imágenes y métodos basados en el aprendizaje profundo. El primer enfoque suele utilizar algoritmos de coincidencia de plantillas y descriptores de características convencionales para extraer las características de la imagen. Desafortunadamente, este método requiere mucho tiempo de computación y no es adecuado para aplicaciones en tiempo real. Las técnicas de aprendizaje profundo, construidas principalmente con redes neuronales convolucionales (CNN), logran mejores resultados que los enfoques tradicionales y pueden usarse para aplicaciones en tiempo real.
Recientemente, un equipo de investigación chino propuso una nueva red profunda (BA-CNN) basada en dos ResNet-34 paralelos para extraer características y un mecanismo de atención híbrido que se ocupa de las dimensiones espaciales y de canal.
Los autores eligieron ResNet-34 como la columna vertebral de BA-CNN para aprovechar las unidades residuales, lo que permite que la red aprenda mapeos similares a identidades más fácilmente. Además, en comparación con otras redes de extracción de características como VGGNet, ResNet-34 aumenta la profundidad para mejorar la potencia de extracción de características de grano fino mientras mantiene la misma dimensión de características de salida. La última capa completamente conectada y la capa softmax de cada CNN se eliminan y reemplazan por una capa de agrupación bilineal. Las salidas de los dos ResNet-34 se combinan aplicando el producto externo para producir características bilineales de alta dimensión, que representan el vector de representación de características bilineal final. Además, para impulsar a las redes a centrarse en el canal local y las partes de respuesta espacial, se agrega un módulo de atención basado en el módulo de atención de bloque convolucional (CBAM) entre las unidades residuales de los dos ResNet-34. Este módulo de atención es una función híbrida formada por canales y bloques de atención espacial. Gracias al módulo de atención, BA-CNN realiza una clasificación poco supervisada por el único uso de etiquetas de categoría de imágenes.
Antes de enviar las imágenes a la red, los autores propusieron realizar un paso de preprocesamiento para mejorar la calidad de las imágenes de la aeronave y facilitar el paso de extracción de características. Las técnicas de mejora del dominio espacial se utilizan, por lo tanto, para aumentar el contraste y agudizar las imágenes relativamente borrosas.
Los autores realizaron un estudio experimental sobre el conjunto de datos de aeronaves FGVC para comparar BA-CNN con los métodos existentes de última generación. Los resultados demuestran que el método propuesto en este documento supera a todos los métodos convencionales débilmente supervisados de los últimos años. También se realizó un estudio de ablación para comprobar la eficacia de la atención híbrida. El estudio mostró que la combinación de los bloques de atención espacial y de canal mejoró el resultado general en alrededor de un 4,2 %.
Hemos visto en este artículo un novedoso método de clasificación de aeronaves, denominado BA-CNN, basado en dos redes paralelas ResNet-34 combinadas con un módulo de atención híbrido formado por un bloque de canales y un bloque espacial. Gracias a este módulo de atención híbrido, la red BA-CNN puede aprender características detalladas de un extremo a otro y con una supervisión débil. El estudio experimental demostró que la tasa de precisión del reconocimiento del enfoque propuesto supera a la mayoría de los algoritmos poco supervisados convencionales recientes. Para trabajos futuros, los autores planean disminuir la dimensionalidad de las características bilineales y mejorar la practicidad de la red.
Este artículo está escrito como un artículo de resumen en papel por el personal de investigación de Marktechpost basado en el trabajo de investigación ‘Red de Reconocimiento de Imágenes de Aeronaves Basada en Mecanismo de Atención Híbrido‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools