Estás leyendo la publicación: Investigadores de UC Berkeley presentan Gorilla: un modelo basado en LLaMA perfeccionado que supera a GPT-4 en la escritura de llamadas API
Un avance reciente en el campo de la Inteligencia Artificial es la introducción de Modelos de Lenguaje Grande (LLM). Estos modelos nos permiten comprender el lenguaje de manera más concisa y, por lo tanto, hacer el mejor uso del procesamiento del lenguaje natural (NLP) y la comprensión del lenguaje natural (NLU). Estos modelos funcionan bien en todas las demás tareas, incluido el resumen de texto, la respuesta a preguntas, la generación de contenido, la traducción de idiomas, etc. Entienden indicaciones textuales complejas, incluso textos con razonamiento y lógica, e identifican patrones y relaciones entre esos datos.
Aunque los modelos de lenguaje han mostrado un rendimiento increíble y se han desarrollado significativamente en los últimos tiempos al demostrar su competencia en una variedad de tareas, todavía les resulta difícil usar herramientas a través de llamadas API de manera eficiente. Incluso los LLM famosos como GPT-4 luchan por generar argumentos de entrada precisos y con frecuencia recomiendan llamadas API inapropiadas. Para abordar este problema, los investigadores de Berkeley y Microsoft Research propusieron Gorilla, un modelo basado en LLaMA perfeccionado que supera a GPT-4 en términos de producción de llamadas API. Gorilla ayuda a elegir la API adecuada, mejorando la capacidad de los LLM para trabajar con herramientas externas para llevar a cabo actividades particulares.
El equipo de investigadores también creó un conjunto de datos APIBench, que se compone de un corpus considerable de API con funcionalidad superpuesta. El conjunto de datos se creó recopilando centros de modelos públicos como TorchHub, TensorHub y HuggingFace para sus API de ML. Cada solicitud de API de TorchHub y TensorHub se incluye para cada API, y se eligen los 20 mejores modelos de HuggingFace para cada categoría de tarea. Además, producen diez solicitudes de consulta de usuario ficticias para cada API utilizando el método de autoinstrucción.
Utilizando este conjunto de datos APIBench y la recuperación de documentos, los investigadores han perfeccionado Gorilla. Gorilla, el modelo de 7 mil millones de parámetros supera a GPT-4 en cuanto a la corrección del funcionamiento de la API y reduce los errores alucinatorios. La integración efectiva del recuperador de documentos con Gorilla demuestra la posibilidad de que los LLM utilicen las herramientas con mayor precisión. Las capacidades mejoradas de generación de llamadas API de Gorilla y su capacidad para modificar la documentación según sea necesario mejora la aplicabilidad y confiabilidad de los resultados del modelo. Este desarrollo es importante porque permite a los LLM mantenerse al día con la documentación actualizada regularmente, brindando a los usuarios información más precisa y actualizada.
Uno de los ejemplos compartidos por los investigadores muestra cómo Gorilla reconoce correctamente las tareas y ofrece resultados API totalmente calificados. Las llamadas API generadas por los modelos mostraron que GPT-4 producía solicitudes API para modelos hipotéticos, lo que demuestra una falta de comprensión de la tarea. Claude eligió la biblioteca equivocada, mostrando una falta de capacidad para reconocer los recursos correctos. Gorilla, en cambio, reconoció correctamente la tarea. Por lo tanto, Gorilla se diferencia de GPT-4 y Claude en que la creación de llamadas API es precisa, lo que demuestra tanto su rendimiento mejorado como su comprensión de tareas.
En conclusión, Gorilla es una adición importante a la lista de modelos de lenguaje, ya que incluso aborda el problema de escribir llamadas API. Sus capacidades permiten la reducción de problemas relacionados con la alucinación y la fiabilidad.