Este modelo de IA llamado SeaFormer lleva los transformadores de visión a los dispositivos móviles

Estás leyendo la publicación: Este modelo de IA llamado SeaFormer lleva los transformadores de visión a los dispositivos móviles

La introducción del transformador de visión y su enorme éxito en la tarea de detección de objetos ha atraído mucha atención hacia los transformadores en el dominio de la visión artificial. Estos enfoques han demostrado su fuerza en el modelado de contexto global, aunque su complejidad computacional ha retrasado su adaptación en aplicaciones prácticas.

A pesar de su complejidad, hemos visto numerosas aplicaciones de los transformadores de visión desde su lanzamiento en 2021. Se han aplicado a videos para compresión y clasificación. Por otro lado, varios estudios se centraron en mejorar los transformadores de visión integrando estructuras existentes, como convoluciones o pirámides de características.

Aunque, el aspecto interesante para nosotros es su aplicación a Segmentación de imagen. Podrían modelar con éxito el contexto global para la tarea. Estos enfoques funcionan bien cuando tenemos computadoras potentes, pero no se pueden ejecutar en dispositivos móviles debido a limitaciones de hardware.

Algunas personas intentaron resolver este extenso requisito de memoria y computación de los transformadores de visión mediante la introducción de alternativas ligeras a los componentes existentes. Si bien estos cambios mejoraron la eficiencia de los transformadores de visión, el nivel aún era insuficiente para ejecutarlos en dispositivos móviles.

Por lo tanto, tenemos una nueva tecnología que puede superar a todos los modelos anteriores en tareas de segmentación de imágenes, pero no podemos utilizarla en dispositivos móviles debido a limitaciones. ¿Hay alguna manera de resolver esto y llevar ese poder a los dispositivos móviles? La respuesta es sí, y esto es lo que SeaFormer es para.

🔥 Recomendado:  5 alertas de Amazon que cambiarán la forma en que administra los comentarios negativos, el inventario y las ventas

SeaFormer (transformador axial mejorado por compresión) es un modelo de segmentación de imágenes compatible con dispositivos móviles que se construye utilizando transformadores. Reduce la complejidad computacional de la atención axial para lograr una eficiencia superior en dispositivos móviles.

El bloque de construcción central es lo que ellos llaman atención axial mejorada por compresión (SEA). Este bloque actúa como un compresor de datos para reducir el tamaño de entrada. En lugar de pasar todos los parches de imagen de entrada, el módulo de atención SEA primero agrupa los mapas de características de entrada en un formato compacto y luego calcula la autoatención. Además, para minimizar la pérdida de información de la agrupación, la consulta, las claves y los valores se vuelven a agregar al resultado. Una vez que se vuelven a agregar, se usa una capa de convolución en profundidad para mejorar los detalles locales.

Este módulo de atención reduce significativamente la sobrecarga computacional en comparación con los transformadores de visión tradicionales. Sin embargo, el modelo aún necesita ser mejorado; así, las modificaciones continúan.

Para mejorar aún más la eficiencia, se implementa un bloque de atención genérico, que se caracteriza por la formulación de atención apretada y mejora de detalles. Además, al final se utiliza un cabezal de segmentación ligero. La combinación de todos estos cambios da como resultado un modelo capaz de realizar una segmentación de imágenes de alta resolución en dispositivos móviles.

SeaFormer supera a todos los demás transformadores de segmentación de imágenes eficientes de última generación en una variedad de conjuntos de datos. Aunque también se puede aplicar para otras tareas, y para demostrarlo, los autores evaluaron SeaFormer para la tarea de clasificación de imágenes en el conjunto de datos de ImageNet. Los resultados fueron exitosos, ya que SeaFormer puede superar a otros transformadores aptos para dispositivos móviles mientras logra funcionar más rápido que ellos.