Conozca el adaptador LLaMA: un método de adaptación ligero para ajustar con precisión los modelos LLaMA de seguimiento de instrucciones utilizando datos de 52 000 proporcionados por Stanford Alpaca

Estás leyendo la publicación: Conozca el adaptador LLaMA: un método de adaptación ligero para ajustar con precisión los modelos LLaMA de seguimiento de instrucciones utilizando datos de 52 000 proporcionados por Stanford Alpaca

Los corpus a gran escala y el hardware de última generación permiten a los LLM generar modelos con una comprensión y un poder generativo extraordinarios, lo que eleva el nivel de los problemas de lenguaje. Los desarrollos recientes en los modelos de seguimiento de instrucciones, como ChatGPT1 y GPT-3.5, han logrado un gran progreso (text-davinci-003). Pueden producir respuestas profesionales y conversacionales cuando se les dan órdenes o instrucciones en lenguaje normal. Sin embargo, la limitación del código cerrado y los altos costos de desarrollo impiden significativamente la difusión de los modelos de seguimiento de instrucciones.

Los investigadores de Stanford Alpaca sugirieron modificar un LLM, o LLaMA, en un modelo de seguimiento de instrucciones accesible y escalable. Alpaca usa GPT-3.5 para autoinstruirse y aumentar los datos de entrenamiento a 52K a partir de 175 pares de instrucciones y resultados escritos por humanos. Esto controla a Alpaca para optimizar todos los parámetros 7B en LLaMA, lo que da como resultado un modelo excelente que funciona de manera similar a GPT-3.5. A pesar de la eficiencia de Alpaca, LLaMA a gran escala todavía requiere un gran ajuste. Esto consume mucho tiempo, demanda computacionalmente, es incompatible con múltiples modalidades y es difícil de adaptar a otros escenarios posteriores.

Un grupo de investigadores del Laboratorio de Inteligencia Artificial de Shanghái, CUHK MMLab y la Universidad de California presentó el LLaMA-Adapter. Esta eficaz técnica de ajuste fino transforma LLaMA en un modelo capaz de seguir instrucciones. En las capas superiores del transformador de LLaMA, los investigadores anteponen los tokens de instrucción de entrada con un conjunto de indicaciones de adaptación que se pueden aprender. Estas instrucciones se inyectan de forma adaptativa en LLaMA mediante estas indicaciones.

🔥 Recomendado:  Adobe ha integrado Firefly directamente en Photoshop: uniendo la velocidad y la facilidad de la IA generativa con el poder y la precisión de Photoshop

El equipo cambió los mecanismos de atención predeterminados en las capas insertadas a atención de inicio cero con un factor de activación entrenable para eliminar el ruido de las señales de adaptación durante el período de entrenamiento inicial. Inicializado con vectores cero, el gating puede mantener el conocimiento inicial en LLaMA y agregar gradualmente señales de entrenamiento. Esto ayuda a que el modelo final siga mejor las instrucciones y mantenga la estabilidad del aprendizaje a medida que se ajusta.

En general, LLaMA-Adapter exhibe las siguientes cuatro características:

  1. 1,2 millones de parámetros: el LLaMA preentrenado se congela y solo aprende las indicaciones de adaptación con 1,2 millones de parámetros en la parte superior en lugar de actualizar todo el conjunto de parámetros 7B. Esto, sin embargo, demuestra una instrucción comparable después del dominio del 7B Alpaca.
  2. Ajuste fino durante una hora. Con ocho GPU A100, la convergencia del LLaMA-Adapter lleva menos de una hora, que es tres veces más rápido que Alpaca, gracias a los parámetros livianos y la puerta de inicio cero.
  3. Conéctese con el conocimiento. Es adaptable para instalar sus adaptadores apropiados y brinda a LLaMA diversos conocimientos expertos para diversas condiciones. Por lo tanto, es suficiente guardar un adaptador de 1,2 M dentro de cada contexto.
  4. Estado multimodal: LLaMA-Adapter se puede expandir para aceptar entrada de imágenes e instrucciones textuales para el razonamiento multimodal. LLaMA-Adapter logra un rendimiento competitivo en el punto de referencia ScienceQA al incluir tokens de imagen en las indicaciones de adaptación.

El equipo planea incorporar entradas multimodales más variadas, como audio y video, en LLaMA-Adapter. Realizarán investigaciones adicionales sobre modelos LLaMA más grandes (parámetros 33B, 65B) y varios puntos de referencia.