Estás leyendo la publicación: Investigadores de la USC proponen un método de agrupación de autoatención para un aprendizaje profundo eficiente
En los últimos años, las arquitecturas de CNN han logrado un progreso notable en varias tareas de visión desafiantes, incluida la segmentación semántica y la clasificación de objetos. Los grandes mapas de activación en las capas iniciales de CNN están ocupando una gran cantidad de memoria en el chip debido al aumento continuo de la resolución de las imágenes adquiridas por los sensores de las cámaras actuales. La operación de agrupación implica deslizar un filtro bidimensional sobre cada canal del mapa de características y sumar las características ubicadas dentro de la región cubierta por el filtro. Las capas de agrupación reducen el tamaño de los mapas de características. Como resultado, reduce la cantidad de cómputo de red y el número de parámetros de aprendizaje. Sin embargo, la investigación conjunta anterior solo extrajo el contexto local de los mapas de activación, lo que redujo su eficacia.
En la literatura se han propuesto varias operaciones de agrupación. Las funciones más clásicas, como la agrupación promedio y la agrupación máxima, son métodos ingenuos que no pueden extraer la información relevante, especialmente cuando se requiere una reducción rápida en el tamaño de los mapas. Más recientemente, han surgido otras operaciones de agrupación que intentan reducir el tamaño de los mapas de manera más inteligente. En este contexto, un equipo de investigación de California propuso una nueva técnica de agrupación de atención automática no local que puede reemplazar las técnicas de agrupación más tradicionales, como la convolución estriada o la agrupación máxima/promedio.
La agrupación de autoatención sugerida se basa en un mecanismo de autoatención de varios cabezales que registra información no local como mapas de autoatención para llevar a cabo la reducción de muestreo de características. Los autores también sugirieron combinar la poda de canales y la optimización de la estrategia de agrupación propuesta para minimizar la huella de memoria de todos los modelos de CNN. Cuatro elementos principales comprenden la estructura general del nuevo método: incrustación de parches, autoatención de varios cabezales, restauración de canales espaciales y agrupación ponderada.
1: el mapa de activación se divide en diferentes parches, luego la incrustación de parches se usa para exprimir la información del canal espacial. Se utiliza una capa de convolución estriada a lo largo del canal y las dimensiones espaciales de la entrada para ajustar y codificar características locales para diferentes parches.
2 – La autoatención de varios cabezales se utiliza para modelar las dependencias de largo alcance entre los tokens de parche.
3 – Basándose en la secuencia del token de atención automática, la restauración del canal espacial decodifica la información espacial y del canal y expande el token a la resolución espacial original a través de la interpolación bilineal.
4 – La agrupación ponderada se implementa para crear el mapa de características de salida muestreado a partir de la salida del bloque de restauración del canal espacial.
Para evaluar el desempeño del método propuesto en este artículo, los autores realizaron un estudio experimental utilizando dos redes como backbone, que son MobileNetv2 y ResNet18. Un estudio cualitativo mostró que, en comparación con otros métodos de vanguardia, el enfoque propuesto se centra más en los detalles de una imagen y las dependencias de largo alcance entre diferentes regiones locales. Además, la evaluación demostró que, en comparación con los enfoques de agrupación existentes con las famosas redes troncales CNN eficientes en memoria, el método propuesto es más eficiente en varios puntos de referencia de reconocimiento y detección de objetos.
En este artículo, presentamos una nueva agrupación de autoatención propuesta por un equipo de investigación de California que agrega características no locales de mapas de activación, lo que permite la extracción de relaciones más complejas entre diferentes características en comparación con las capas de agrupación locales existentes. En comparación con las técnicas existentes, la agrupación de autoatención logra una mayor precisión de inferencia con huellas de iso-memoria. También se puede usar en sistemas con memoria limitada, como microcontroladores, sin comprometer significativamente la precisión.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Agrupación autoatenta para un aprendizaje profundo eficiente‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools