Estás leyendo la publicación: ¿Cómo debemos maximizar la capacidad de planificación de los LLM mientras reducimos el costo de cómputo? Conozca a SwiftSage: un nuevo agente generativo para el razonamiento interactivo complejo…
La inteligencia artificial se está popularizando rápidamente y por muy buenas razones. Con la introducción de modelos de lenguajes grandes como GPT, BERT y LLaMA, casi todas las industrias, incluidas la atención médica, las finanzas, el comercio electrónico y los medios, utilizan estos modelos para tareas como la comprensión del lenguaje natural (NLU), la generación de lenguaje natural. (NLG), respuesta a preguntas, programación, recuperación de información, etc. El muy famoso ChatGPT, que ha estado en los titulares desde su lanzamiento, se ha construido con la tecnología de transformadores GPT 3.5 y GPT 4.
Estos sistemas de IA que imitan a los humanos dependen en gran medida del desarrollo de agentes que sean capaces de exhibir habilidades de resolución de problemas similares a las de los humanos. Los tres enfoques principales para desarrollar agentes que puedan abordar tareas complejas de razonamiento interactivo son: aprendizaje de refuerzo profundo (RL), que implica capacitar a los agentes a través de un proceso de prueba y error, clonación de comportamiento (BC) a través del aprendizaje de secuencia a secuencia (seq2seq) que implica capacitar a los agentes imitando el comportamiento de los agentes expertos y LLM de incitación en los que los agentes generativos basados en LLM de incitación producen planes y acciones razonables para tareas complejas.
Los enfoques BC basados en RL y seq2seq tienen algunas limitaciones, como la descomposición de tareas, la incapacidad de mantener la memoria a largo plazo, la generalización a tareas desconocidas y el manejo de excepciones. Debido a la inferencia LLM repetida en cada paso de tiempo, los enfoques anteriores también son computacionalmente costosos.
Recientemente, se propuso un marco llamado SWIFTSAGE para abordar estos desafíos y permitir que los agentes imiten cómo los humanos resuelven tareas complejas de mundo abierto. SWIFTSAGE tiene como objetivo integrar las fortalezas de la clonación de comportamientos y los LLM rápidos para mejorar el rendimiento de la finalización de tareas en tareas interactivas complejas. El marco se inspira en la teoría del proceso dual, que sugiere que la cognición humana implica dos sistemas distintos: el Sistema 1 y el Sistema 2. El Sistema 1 implica un pensamiento rápido, intuitivo y automático, mientras que el Sistema 2 implica procesos de pensamiento metódicos, analíticos y deliberados.
El marco SWIFTSAGE consta de dos módulos: el módulo SWIFT y el módulo SAGE. Similar al Sistema 1, el módulo SWIFT representa un pensamiento rápido e intuitivo. Se implementa como un modelo compacto de lenguaje codificador-decodificador que ha sido ajustado en las trayectorias de acción de un agente de Oracle. El módulo SWIFT codifica componentes de la memoria a corto plazo como acciones anteriores, observaciones, ubicaciones visitadas y el estado actual del entorno, seguido de la decodificación de la siguiente acción individual, con el objetivo de simular el proceso de toma de decisiones rápido e instintivo que muestran los humanos.
El módulo SAGE, por otro lado, imita procesos de pensamiento similares al Sistema 2 y utiliza LLM como GPT-4 para la planificación y puesta a tierra de subobjetivos. En la etapa de planificación, se solicita a los LLM que localicen los elementos necesarios, planifiquen, realicen un seguimiento de los subobjetivos y detecten y rectifiquen posibles errores, mientras que en la etapa de puesta a tierra, los LLM se emplean para transformar los subobjetivos de salida derivados de la etapa de planificación en una secuencia de acciones ejecutables. .
Los módulos SWIFT y SAGE se han integrado a través de un algoritmo heurístico que determina cuándo activar o desactivar el módulo SAGE y cómo combinar las salidas de ambos módulos mediante un mecanismo de búfer de acción. A diferencia de los métodos anteriores que generan solo la siguiente acción inmediata, SWIFTSAGE se involucra en la planificación de acciones a más largo plazo.
Para evaluar el rendimiento de SWIFTSAGE, se realizaron experimentos en 30 tareas del benchmark ScienceWorld. Los resultados han demostrado que SWIFTSAGE supera significativamente a otros métodos existentes, como SayCan, ReAct y Reflexion. Logra puntuaciones más altas y demuestra una eficacia superior en la resolución de tareas complejas del mundo real.
En conclusión, SWIFTSAGE es un marco prometedor que combina las fortalezas de la clonación de comportamientos y la promoción de LLM. Por lo tanto, puede ser realmente beneficioso para mejorar la planificación de acciones y mejorar el rendimiento en tareas de razonamiento complejas.