Conozca AttentionViz: una herramienta de visualización interactiva para examinar los conceptos de atención tanto en el lenguaje como en los transformadores de visión

Estás leyendo la publicación: Conozca AttentionViz: una herramienta de visualización interactiva para examinar los conceptos de atención tanto en el lenguaje como en los transformadores de visión

La PNL y la visión por computadora son dos áreas en las que el diseño de redes neuronales transformadoras influye significativamente. Los transformadores se utilizan actualmente en sistemas reales de gran tamaño a los que acceden cientos de millones de usuarios (por ejemplo, Stable Diffusion, ChatGPT, Microsoft Copilot). Las razones que subyacen a este logro siguen siendo en parte un misterio, especialmente dado el rápido desarrollo de nuevas herramientas y el tamaño y la complejidad de los modelos. Al comprender mejor los modelos de transformadores, se pueden crear sistemas más confiables, resolver problemas y recomendar formas de mejorar las cosas.

En este artículo, investigadores de la Universidad de Harvard analizan un método de visualización novedoso para comprender mejor el funcionamiento del transformador. El tema de su investigación es el proceso de la característica autoatención transformadora que permite que estos modelos aprendan y exploten una amplia gama de interacciones entre elementos de entrada. Aunque los patrones de atención se han examinado a fondo, los métodos anteriores generalmente solo mostraban datos asociados con una sola secuencia de entrada (como una sola oración o imagen) a la vez. Los métodos típicos muestran los pesos de atención para una secuencia de entrada particular como un gráfico bipartito o un mapa de calor.

Con este enfoque, pueden observar simultáneamente los patrones de autoatención de varias secuencias de entrada desde un mayor grado de perspectiva. El éxito de herramientas como Activation Atlas, que permite a un investigador “alejarse” para obtener una descripción general de una red neuronal y luego profundizar en detalles, sirvió de inspiración para esta estrategia. Quieren crear un “atlas de la atención” que proporcione a los académicos una comprensión profunda de cómo funcionan las muchas cabezas de atención de un transformador. La principal innovación es visualizar una incrustación combinada de la consulta y los vectores clave empleados por los transformadores, lo que produce una marca visual distintiva para cada cabeza de atención.

🔥 Recomendado:  Revelando la historia de los 3 ASIN principales en los que se hizo clic para una palabra clave

Para demostrar su metodología, emplean AttentionViz, una herramienta de visualización interactiva que permite a los usuarios investigar la atención tanto en el lenguaje como en los transformadores de la visión. Se concentran en lo que la visualización puede mostrar sobre los transformadores BERT, GPT-2 y ViT para brindar concreción. Con una vista global para observar todas las cabezas de atención a la vez y la opción de acercar detalles en una secuencia de entrada o cabeza de atención en particular, AttentionViz permite la exploración a través de varios niveles de detalle (Fig. 1). Usan una variedad de situaciones de aplicación, que incluyen AttentionViz y entrevistas con expertos en la materia, para mostrar la efectividad de su método.

Cifra. 1: Al generar un espacio integrado compartido para consultas y claves, AttentionViz, su herramienta de visualización interactiva, permite a los usuarios investigar la autoatención del transformador a escala. Estas visualizaciones en los transformadores de lenguaje (a) muestran huellas visuales impresionantes que están conectadas a patrones atencionales. Como se muestra mediante el color de los puntos, cada punto del diagrama de dispersión indica la consulta o la versión clave de una palabra.

Los usuarios pueden alejarse para obtener una vista “global” de la atención (derecha) o investigar cabezas de atención individuales (izquierda). (b) Sus visualizaciones también muestran información interesante sobre los transformadores de la visión, como los cabezales de atención que clasifican los parches de la imagen según el tono y el brillo. Las incrustaciones clave se indican con bordes rosados, mientras que las incrustaciones de parches se indican con bordes verdes. Como referencia, declaraciones de un conjunto de datos sintéticos en (C) y fotos (d) son presentados.

🔥 Recomendado:  ¿Cuánto dinero ganan los vendedores de Amazon?

Identifican varios “rastros visuales” reconocibles conectados a patrones de atención en BERT, identifican un comportamiento único de tono/frecuencia en el mecanismo de atención visual de ViT y localizan comportamientos quizás anómalos en GPT-2. Los comentarios de los usuarios también respaldan la mayor aplicabilidad de su técnica para visualizar varias incrustaciones a escala. En conclusión, este estudio hace las siguientes contribuciones:

• Un método de visualización basado en incrustaciones de claves de consulta conjuntas para examinar patrones de atención en modelos de transformadores.

• Escenarios de aplicación y aportes de expertos que demuestran cómo AttentionViz puede ofrecer información sobre los patrones de atención del transformador

• AttentionViz, una herramienta interactiva que aplica su enfoque para investigar la autoatención en los transformadores de la visión y el lenguaje a numerosas escalas.