Estás leyendo la publicación: Los transformadores de visión superan los desafíos con el nuevo método de “atención de parche a clúster”
Las tecnologías de inteligencia artificial (IA), en particular los transformadores de visión (ViT), se han mostrado inmensamente prometedoras en su capacidad para identificar y categorizar objetos en imágenes. Sin embargo, su aplicación práctica se ha visto limitada por dos desafíos importantes: los requisitos de alta potencia computacional y la falta de transparencia en la toma de decisiones. Ahora, un grupo de investigadores ha desarrollado una solución innovadora: una metodología novedosa conocida como “atención de parche a clúster” (PaCa). PaCa tiene como objetivo mejorar las capacidades de ViT en la identificación, clasificación y segmentación de objetos de imagen, al mismo tiempo que resuelve los problemas de larga data de las demandas computacionales y la claridad en la toma de decisiones.
Abordar los desafíos de ViTs: un vistazo a la nueva solución
Los transformadores, debido a sus capacidades superiores, se encuentran entre los modelos más influyentes en el mundo de la IA. El poder de estos modelos se ha extendido a los datos visuales a través de ViT, una clase de transformadores que se entrenan con entradas visuales. A pesar del tremendo potencial que ofrecen los ViT para interpretar y comprender imágenes, se han visto frenados por un par de problemas importantes.
En primer lugar, debido a la naturaleza de las imágenes que contienen grandes cantidades de datos, los ViT requieren una potencia y una memoria de cálculo sustanciales. Esta complejidad puede ser abrumadora para muchos sistemas, especialmente cuando se manejan imágenes de alta resolución. En segundo lugar, el proceso de toma de decisiones dentro de ViTs suele ser enrevesado y opaco. A los usuarios les resulta difícil comprender cómo los ViT diferencian entre varios objetos o características en una imagen, lo cual es crucial para numerosas aplicaciones.
Sin embargo, la innovadora metodología PaCa ofrece una solución a ambos desafíos. “Abordamos el desafío relacionado con las demandas computacionales y de memoria mediante el uso de técnicas de agrupación, que permiten que la arquitectura del transformador identifique y se centre mejor en los objetos de una imagen”, explica Tianfu Wu, autor correspondiente de un artículo sobre el trabajo y profesor asociado de Ingeniería Eléctrica e Informática en la Universidad Estatal de Carolina del Norte.
El uso de técnicas de agrupamiento en PaCa reduce drásticamente los requisitos computacionales, convirtiendo el problema de un proceso cuadrático en uno lineal manejable. Wu explica además el proceso: “Al agrupar, podemos hacer de este un proceso lineal, donde cada unidad más pequeña solo necesita compararse con un número predeterminado de grupos”.
La agrupación también sirve para aclarar el proceso de toma de decisiones en ViTs. El proceso de formación de grupos revela cómo ViT decide qué características son importantes para agrupar secciones de los datos de la imagen. Como la IA crea solo una cantidad limitada de grupos, los usuarios pueden comprender y examinar fácilmente el proceso de toma de decisiones, lo que mejora significativamente la interpretabilidad del modelo.
La metodología PaCa supera a otras ViT de última generación
A través de pruebas exhaustivas, los investigadores descubrieron que la metodología PaCa supera a otras ViT en varios frentes. Wu elabora: “Descubrimos que PaCa superó a SWin y PVT en todos los sentidos”. El proceso de prueba reveló que PaCa se destacó en la clasificación e identificación de objetos dentro de las imágenes y la segmentación, delineando de manera eficiente los límites de los objetos en las imágenes. Además, se encontró que era más eficiente en el tiempo, realizando tareas más rápidamente que otros ViT.
Alentado por el éxito de PaCa, el equipo de investigación tiene como objetivo promover su desarrollo entrenándolo en conjuntos de datos fundamentales más grandes. Al hacerlo, esperan ampliar los límites de lo que actualmente es posible con la IA basada en imágenes.
El trabajo de investigación, “PaCa-ViT: aprendizaje de la atención de parche a clúster en Vision Transformers”, se presentará en el próximo Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones. Es un hito importante que podría allanar el camino para sistemas de IA más eficientes, transparentes y accesibles.