Este documento de IA propone GhostNetV2 para mejorar el funcionamiento económico con atención de largo alcance

Estás leyendo la publicación: Este documento de IA propone GhostNetV2 para mejorar el funcionamiento económico con atención de largo alcance

El diseño de redes neuronales profundas es crucial en la visión por computadora para muchas aplicaciones, como el reconocimiento de imágenes y objetos y el análisis de video. AlexNet, GoogleNet, ResNet y EfficientNet son solo algunos hitos en la arquitectura de red desarrollados durante la última década. Estas redes han mejorado mucho la eficiencia de muchas tareas visuales.

El rendimiento de un modelo es importante, pero la eficiencia, especialmente el tiempo de inferencia real, es más crucial cuando se implementan redes neuronales en dispositivos perimetrales como teléfonos inteligentes y dispositivos portátiles. Las multiplicaciones de matrices ocupan la mayor parte tanto del costo de cálculo como de los parámetros.

Estudios anteriores sugieren que desarrollar un modelo liviano es una estrategia interesante para reducir la latencia de inferencia. Por el contrario, las ganancias de velocidad que se pueden obtener mediante el uso de modelos ligeros basados ​​en convolución están limitadas por su incapacidad para describir la dependencia de largo alcance.

En visión artificial, recientemente se han presentado modelos inspirados en transformadores, con el módulo de autoatención capaz de absorber datos globales. Un módulo de autoatención promedio tiene una complejidad computacional que crece cuadráticamente con el tamaño del formulario de la característica, lo que lo hace poco práctico para usar en aplicaciones del mundo real. El proceso de determinar el mapa de atención implica muchas operaciones de división y remodelación de características. En teoría, estos procesos son bastante simples, pero utilizan más memoria y tienen un mayor retraso en la práctica. Por lo tanto, usar la autoatención como marcador de posición en modelos livianos no es compatible con dispositivos móviles.

🔥 Recomendado:  5 formas de aumentar el tráfico externo a su lista de Amazon

Para abordar estos problemas, un nuevo estudio de Huawei, la Universidad de Pekín y la Universidad de Sydney propone GhostNetV2, un nuevo mecanismo de atención (denominado atención DFC) para capturar información espacial de largo alcance y mantener la eficiencia de las redes neuronales convolucionales ligeras.

Los investigadores crearon mapas de atención utilizando solo capas totalmente conectadas (FC). Para agregar píxeles en un mapa de características 2D de CNN, una capa FC se divide en FC horizontal y FC vertical. Cuando se apilan, los píxeles de las dos capas FC cubren un área grande en ambas direcciones, creando un campo receptivo mundial. Además, el equipo comienza construyendo sobre GhostNet de última generación y mejorando sus funciones intermedias prestando especial atención al cuello de botella de la representación mediante DFC. Esto dio como resultado GhostNetV2, una nueva infraestructura de visión ligera. Proporciona un mejor compromiso entre precisión y velocidad de inferencia que los sistemas anteriores.

Para validar su superioridad, el equipo probó GhostNetV2 en varios conjuntos de datos de referencia (p. ej., ImageNet, MS COCO). Usando el conjunto de datos masivo de ImageNet, prueban varios enfoques para el desafío de categorización de imágenes. En comparación con otros modelos livianos como GhostNet, MobileNetV2, MobileNetV3 y ShuffleNet, GhostNetV2 logra un rendimiento mucho mayor a un costo computacional reducido.

El equipo también emplea GhostNetV2 como base y lo incorpora a YOLOV3, una técnica ligera de detección de objetos, para verificar su generalización. Evalúan el rendimiento de varios modelos en el conjunto de datos MS COCO, cada uno con una columna vertebral única. Para obtener una comprensión más profunda de GhostNetV2, finalmente realizan una serie de experimentos de ablación completos. Los resultados muestran que GhostNetV2 supera a GhostNet V1 en varias resoluciones de entrada. Por ejemplo, GhostNetV2 obtiene 22,3 % mAP, que es una supresión de GhostNet V1 en 0,5 mAP, mientras usa el mismo costo computacional (es decir, 340 millones de FLOP con una resolución de entrada de 320320). A partir de estos resultados, el equipo afirma que la atención DFC propuesta puede otorgar con éxito un gran campo receptivo al módulo Ghost y luego construir un bloque más poderoso y eficiente, que es esencial para las tareas posteriores.