Conozca el uso automatizado de herramientas y razonamiento (ART): un marco que utiliza LLM de modelos de lenguaje grandes congelados para producir rápidamente etapas intermedias en programas de razonamiento

Estás leyendo la publicación: Conozca el uso automatizado de herramientas y razonamiento (ART): un marco que utiliza LLM de modelos de lenguaje grandes congelados para producir rápidamente etapas intermedias en programas de razonamiento

Los modelos de idiomas grandes pueden adaptarse rápidamente a nuevas tareas utilizando el aprendizaje en contexto al recibir algunas demostraciones e instrucciones en idiomas reales. Esto evita alojar el LLM o anotar grandes conjuntos de datos, pero tiene importantes problemas de rendimiento con el razonamiento de varios pasos, las matemáticas, tener la información más reciente y otras cosas. Investigaciones recientes sugieren brindar a los LLM acceso a herramientas para facilitar etapas de razonamiento más sofisticadas o desafiarlos a emular una cadena de razonamiento para el razonamiento de varios pasos para aliviar estas limitaciones. Sin embargo, es un desafío adaptar los enfoques establecidos por una razón encadenada con el uso de herramientas a nuevas actividades y herramientas; esto requiere una puesta a punto o una pronta ingeniería especializada para una determinada actividad o herramienta.

En este estudio, investigadores de la Universidad de Washington, Microsoft, Meta, la Universidad de California y el Instituto Allen de investigación de IA desarrollan el marco Automated Reasoning and Tool use (ART), que crea automáticamente descomposiciones (razonamiento de varios pasos) para ejemplos de nuevas tareas. . ART extrae ejemplos de tareas similares de una biblioteca de tareas para permitir un desglose de algunas tomas y el uso de herramientas para el trabajo posterior. Estos ejemplos usan un lenguaje de consulta flexible pero estructurado que simplifica la lectura de etapas intermedias, pausa la creación para usar herramientas externas y la reinicia una vez que se ha incluido el resultado de esas herramientas (Figura 1). Además, el marco elige y emplea las mejores herramientas adecuadas (como motores de búsqueda y ejecución de código) en cada etapa.

🔥 Recomendado:  Schema Markup y JSON-LD: una guía para principiantes

El LLM recibe demostraciones de ART sobre cómo desglosar instancias de varias actividades relacionadas y cómo elegir y emplear cualquier herramienta de la biblioteca de herramientas representada en estos ejemplos. Esto ayuda al modelo a generalizar a partir de ejemplos para desglosar nuevas tareas y utilizar las herramientas adecuadas para el trabajo, cero disparos. Además, los usuarios pueden actualizar las bibliotecas de tareas y herramientas y agregar ejemplos recientes según sea necesario para corregir cualquier error en la cadena lógica o agregar nuevas herramientas (por ejemplo, para la tarea en cuestión).

Crean una biblioteca de tareas para 15 tareas de BigBench y prueban ART en 19 tareas de prueba de BigBench que no se han visto antes, 6 tareas de MMLU y numerosas tareas de investigación de uso de herramientas relevantes (SQUAD, TriviaQA, SVAMP, MAWPS). Para 32 de los 34 problemas de BigBench y todas las tareas de MMLU, ART regularmente iguala o supera las cadenas de razonamiento CoT creadas por computadora, en promedio, en más de 22 puntos porcentuales. Cuando las herramientas están permitidas, el rendimiento en las tareas de prueba aumenta en un promedio de alrededor de 12,3 puntos porcentuales en comparación con cuando no lo están.

En promedio, ART supera las indicaciones directas de pocas tomas en tareas de BigBench y MMLU en un 10,8 % de puntos porcentuales. ART supera las indicaciones directas de pocas tomas en tareas no vistas que exigen razonamiento matemático y algorítmico en un 12,5 % y supera los hallazgos de GPT3 más conocidos, incluida la supervisión de la descomposición y el uso de herramientas, en un 6,1 % de puntos porcentuales. La actualización de las bibliotecas de tareas y herramientas con nuevos ejemplos permite la interacción humana y la mejora del proceso de razonamiento, lo que hace que sea increíblemente simple aumentar el rendimiento en cualquier trabajo con una intervención humana mínima. En 12 tareas de prueba, ART supera los resultados GPT3 más conocidos en un promedio de más del 20 % cuando se le brinda retroalimentación humana adicional.