Estás leyendo la publicación: Investigadores de Snap y Northeastern University proponen EfficientFormer: un transformador de visión que funciona tan rápido como MobileNet y mantiene un alto rendimiento
Este artículo está escrito como un resumen por el personal de Marktechpost basado en el trabajo de investigación ‘EfficientFormer: Transformadores de visión a la velocidad de MobileNet’. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, github y blog de referencia.
Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático
En el procesamiento del lenguaje natural, el Transformador es un diseño único que busca resolver tareas de secuencia a secuencia al mismo tiempo que resuelve dependencias de largo alcance. Vision Transformers (ViT) ha demostrado excelentes resultados en los puntos de referencia de visión por computadora en los últimos años. Por otro lado, suelen ser mucho más lentas que las redes convolucionales ligeras debido a la gran cantidad de parámetros y arquitectura del modelo, como el mecanismo de atención. Como resultado, es difícil implementar ViT para aplicaciones en tiempo real, especialmente en hardware con recursos limitados, como los dispositivos móviles.
Muchos estudios han trabajado para aliviar el cuello de botella de latencia de los transformadores. Por ejemplo, algunos trabajos han tratado de reducir el costo computacional mediante la construcción de nuevas arquitecturas u operaciones al reemplazar capas lineales con capas convolucionales (CONV), fusionando la atención propia con bloques de MobileNet o introduciendo atención dispersa. En cambio, otros utilizan algoritmos de búsqueda o poda de redes. El trabajo existente ha mejorado la compensación de rendimiento de cómputo. Sin embargo, no demuestran si estos sofisticados transformadores de visión podrán funcionar a velocidades de MobileNet y convertirse en el estándar para aplicaciones de borde.
Snap Inc. y Northeastern University colaboraron en un nuevo estudio que responde a esta pregunta fundamental y sugiere un nuevo paradigma ViT. Los investigadores abordan las dificultades en su trabajo “EfficientFormer: Vision Transformers at MobileNet”, que revisa las ideas de diseño de ViT y sus variantes a través del análisis de latencia e identifica diseños y operadores ineficientes en ViT.
Debido a que el iPhone 12 se usa ampliamente y los resultados son fácilmente replicables, lo emplearon como banco de pruebas y CoreML disponible gratuitamente como compilador. Ofrecen una estrategia de adelgazamiento impulsada por la latencia simple pero efectiva para generar una nueva familia de modelos, llamados EfficientFormers, comenzando con una superred que utiliza el nuevo paradigma de diseño. En lugar de MAC o la cantidad de parámetros, se enfocan en la velocidad de inferencia.
Según los investigadores, su modelo más rápido, EfficientFormer-L1, logra un 79,2 % de precisión entre los 1 primeros en la tarea de clasificación ImageNet-1K, con una latencia un 6,4 % más baja y una precisión entre los 1 primeros un 7,4 % más alta que MobileNetV2 (un promedio de más de 1000 ejecuciones). Los hallazgos sugieren que los transformadores de visión se pueden adoptar fácilmente, independientemente de su latencia. Su modelo más grande, el EfficientFormer-L7, supera los diseños híbridos basados en ViT con una precisión del 83,3 % y una latencia de solo 7,4 ms. Al usar EfficientFormer como la columna vertebral de los puntos de referencia de detección y segmentación de imágenes, reportan mejores resultados.
En conjunto, su investigación revela que los ViT son capaces de lograr velocidades de inferencia ultrarrápidas y un alto rendimiento simultáneamente. El equipo espera que su trabajo sirva como una base sólida para el trabajo futuro en el despliegue de transformadores de visión.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools