Microsoft Research propone LLMA: un acelerador LLM para acelerar sin pérdidas la inferencia del modelo de lenguaje grande (LLM) con referencias

Estás leyendo la publicación: Microsoft Research propone LLMA: un acelerador LLM para acelerar sin pérdidas la inferencia del modelo de lenguaje grande (LLM) con referencias

Los altos costos de implementación son una preocupación creciente a medida que se implementan enormes modelos básicos (p. ej., GPT-3.5/GPT-4) (OpenAI, 2023) en muchos contextos prácticos. Aunque la cuantificación, la poda, la compresión y la destilación son métodos generales útiles para reducir los costos de servicio de los LLM, el cuello de botella de eficiencia de inferencia de los modelos generativos basados ​​en transformadores (p. ej., GPT) se asocia principalmente con la decodificación autorregresiva. Esto se debe a que, en el momento de la prueba, los tokens de salida deben decodificarse (secuencialmente) uno por uno. Esto presenta serias dificultades para implementar LLM a escala.

Según los estudios, el contexto de un LLM suele ser la fuente de sus tokens de salida en aplicaciones del mundo real. El contexto de un LLM generalmente consta de documentos relevantes para una consulta y recuperados de un corpus externo como referencia. La salida del LLM generalmente consta de múltiples tramos de texto descubiertos en la referencia.

A la luz de esta constatación, un grupo de investigadores de Microsoft sugiere LLMA. Esta técnica de decodificación de inferencia con referencia puede acelerar la inferencia LLM al aprovechar la superposición entre la salida de un LLM y una referencia en muchos entornos del mundo real. Este trabajo tuvo como objetivo acelerar la inferencia en LLM al mejorar el rendimiento de la decodificación autorregresiva.

Seleccionar un tramo de texto de la referencia, copiar sus tokens en el decodificador LLM y luego realizar una verificación paralela eficiente basada en las probabilidades del token de salida es cómo funciona LLMA. Hacerlo garantiza que los resultados de la generación no se distingan de los resultados del método de decodificación voraz de vainilla mientras acelera la decodificación al proporcionar un paralelismo mejorado en los aceleradores de vectores como las GPU.

🔥 Recomendado:  Conozca a Magnushammer: un enfoque basado en transformadores para la selección de premisas

A diferencia de los algoritmos de decodificación eficientes anteriores, como la decodificación especulativa y el muestreo especulativo, LLMA no requiere un modelo adicional para generar un borrador para la verificación.

Los experimentos en varios tamaños de modelos y escenarios de aplicaciones prácticas, incluido el aumento de recuperación y la creación asistida por caché, revelan que el enfoque LLMA propuesto logra una aceleración de más de dos factores en comparación con la decodificación codiciosa.