Estás leyendo la publicación: Conozca a Spectformer: una arquitectura de transformador novedosa que combina capas de atención espectrales y de varios cabezales que mejora el rendimiento del transformador para tareas de reconocimiento de imágenes
SpectFormer es una nueva arquitectura de transformadores propuesta por investigadores de Microsoft para procesar imágenes mediante una combinación de capas espectrales y de autoatención de varios cabezales. El documento destaca cómo la arquitectura propuesta por SpectFormer puede capturar mejor las representaciones de características apropiadas y mejorar el rendimiento de Vision Transformer (ViT).
Lo primero que observó el equipo de estudio fue cómo varias combinaciones de capas de atención espectrales y de múltiples cabezas se comparan con modelos que solo usan atención o modelos espectrales. El grupo llegó a la conclusión de que los resultados más prometedores los obtuvo el diseño propuesto de SpectFormer, que incluía capas espectrales implementadas inicialmente mediante la Transformada de Fourier y, posteriormente, capas de atención de múltiples cabezas.
La arquitectura de SpectFormer se compone de cuatro partes básicas: un cabezal de clasificación, un bloque transformador formado por una secuencia de capas espectrales seguidas de capas de atención y una capa de incrustación de parches. La canalización realiza un análisis basado en la frecuencia de la información de la imagen y captura características significativas mediante la transformación de tokens de imagen al dominio de Fourier mediante una transformada de Fourier. Luego, la señal se devuelve del espacio espectral al espacio físico utilizando una transformada inversa de Fourier, parámetros de peso aprendibles y algoritmos de activación.
El equipo utilizó la validación empírica para verificar la arquitectura de SpectFormer y demostró que funciona bastante bien en el modo de transferencia de aprendizaje en los conjuntos de datos CIFAR-10 y CIFAR-100. Los científicos también demostraron que las tareas de detección de objetos y segmentación de instancias evaluadas en el conjunto de datos MS COCO arrojan resultados consistentes utilizando SpectFormer.
En una variedad de tareas de identificación de objetos y clasificación de imágenes, los investigadores en su estudio contrastaron SpectFormer con DeIT basado en autoatención de múltiples cabezas, LiT de arquitectura paralela y GFNet ViTs basados en espectros. En los estudios, SpectFormer superó todas las líneas de base y obtuvo la máxima precisión en el conjunto de datos ImageNet-1K, que superó en un 85,7 % los estándares actuales.
Los resultados muestran que el diseño sugerido de SpectFormer, que combina capas de atención espectrales y de múltiples cabezas, puede capturar de manera más efectiva representaciones de características adecuadas y mejorar el rendimiento de ViT. Los resultados de SpectFormer ofrecen la esperanza de realizar más estudios sobre los transformadores de visión que combinan ambas técnicas.
El equipo ha hecho dos contribuciones al campo: primero, sugieren SpectFormer, un diseño novedoso que combina capas de atención espectrales y de múltiples cabezas para mejorar la eficiencia del procesamiento de imágenes. En segundo lugar, muestran la eficacia de SpectFormer al validarlo en múltiples tareas de clasificación de imágenes y detección de objetos y obtener una precisión de primer nivel en el conjunto de datos ImageNet-1K, que está a la vanguardia del campo.
A fin de cuentas, SpectFormer ofrece un camino viable para el estudio futuro de los transformadores de visión que combinan capas de atención espectrales y de múltiples cabezas. El diseño sugerido de SpectFormer podría desempeñar un papel importante en las canalizaciones de procesamiento de imágenes con más investigación y validación.