Los investigadores de IA de Google proponen N-Grammer para aumentar la arquitectura del transformador con n-gramas latentes

Estás leyendo la publicación: Los investigadores de IA de Google proponen N-Grammer para aumentar la arquitectura del transformador con n-gramas latentes

La introducción de la autoatención a las redes neuronales ha impulsado un progreso rápido y sobresaliente en el modelado de texto generativo. Los modelos de transformador ahora se reconocen como el enfoque fundamental para el procesamiento del lenguaje natural. Por lo tanto, escalar estos modelos ha atraído varios intereses e inversiones recientes. Este documento sugiere una alteración simple a la arquitectura del Transformador, llamada N-Grammer. Durante el entrenamiento y la inferencia, la capa de N-Grammer solo utiliza operaciones escasas. Este trabajo descubre que, si bien es sustancialmente más rápido en la inferencia, un marco de Transformer integrado con la capa latente de N-Grammer también puede alcanzar el valor de un Transformer más grande. Aunque la capa N-Grammer es lo suficientemente flexible como para considerar cualquier N-grama, este trabajo utiliza bi-gramas. La arquitectura de la capa N-Grammer se representa en la Figura 1.

La capa que se agrega en esta investigación tiene cuatro funciones principales. 1) Determinar una secuencia de representación latente discreta utilizando la cuantificación del producto (PQ) proporcionada una sucesión de incrustaciones de unigrama de texto. 2) Determinar la representación del bigrama de la secuencia latente. 3) Hash en el vocabulario de bigramas para encontrar incrustaciones de bigramas entrenables. 4) Integre las incrustaciones de unigrama de entrada con las incrustaciones de bigramas.

El primer paso en la capa N-Grammer es lograr una serie paralela de representaciones latentes discretas con PQ. Las tablas de incrustación de bigramas más pequeñas y la representación de aprendizaje efectiva son dos beneficios principales de adoptar la representación latente. Las identificaciones latentes de unigrama de la posición anterior se combinan para crear las identificaciones latentes de bigrama en cada lugar. En lugar de considerar todos los bigramas, los ID de bigramas latentes se asignan a un vocabulario de bigramas reducido mediante la utilización de distintas funciones hash para cada cabeza. La normalización de capa (LN) se aplica primero a la incrustación de bigrama y la incrustación de unigrama por separado, después de lo cual los dos se concatenan a lo largo de la dimensión de incrustación y se suministran como entrada al resto de la red del transformador.

🔥 Recomendado:  Cómo aprovechar los anuncios de Facebook de Amazon para generar más ventas en Amazon

En el conjunto de datos C4, el modelo N-Grammer propuesto se compara con el marco Transformer y el marco Primer reciente. Se emplea una unidad lineal cerrada como red de avance junto con una función de activación GELU y una incrustación de posición rotatoria (RoPE) para crear una línea de base sólida en esta investigación. En un TPU-v3, cada modelo se entrena con un tamaño de lote de 256 y una longitud de secuencia de 1024.

El estudio de ablación se lleva a cabo en N-Grammer con tamaños que van desde 128 a 512 para la dimensión de inclusión de bi-grama. Dado que N-Grammer se basa en escasas operaciones de búsqueda, sus costos de entrenamiento e inferencia no aumentan con la cantidad de parámetros en la capa de incrustación de n-gramas. Esta investigación utiliza un optimizador Adam con una tasa de aprendizaje de 10-3 para la optimización. Todos los modelos se entrenan en 32 núcleos TPU-v3 y una longitud de secuencia de 1024 usando un tamaño de lote global de 256. Las tablas de incrustación de n-gram se entrenan con una tasa de aprendizaje de 0.1 usando el optimizador Adagrad, que se sabe que es eficiente en el aprendizaje de dispersión. características.

La capa latente de N-Grammer se puede introducir en cualquier capa intermediaria de la red; por lo tanto, también se realizan pruebas de ablación en su posición. Se encontró que posicionar la capa de n-gramas al comienzo de la red es la mejor opción. Además, el rendimiento disminuye con el tiempo debido al traslado de la capa al final de la red. En la comparación de convergencia, se ha encontrado que el modelo N-Grammer propuesto logra la misma perplejidad o precisión en el tiempo del reloj de pared aproximadamente dos veces más rápido que el modelo Primer. Si bien la evaluación de la clasificación posterior gana, se enfatiza que para la mayoría de los trabajos Super-GLUE, el N-Grammer funciona mejor que los modelos Transformer y Primer.

🔥 Recomendado:  ¿Qué es la calidad de los datos? (Y cómo medir la calidad de los datos con 7 métricas)

Por lo tanto, esta investigación presenta la capa N-Grammer para agregar ngramas latentes al diseño del Transformador. Se ha encontrado que esta capa es significativamente más rápida en la inferencia y puede igualar la calidad de un Transformador y un Primer más grandes. El método sugerido es apropiado para sistemas que admiten tablas de incrustación grandes. El N-Grammer es atractivo para la implementación, ya que las operaciones escasas, como una búsqueda integrada, son difíciles de realizar en la mayoría de las plataformas de hardware.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘N-Grammer: Transformadores de aumento con n-gramas latentes‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace de github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools