Estás leyendo la publicación: Este documento de IA demuestra cómo puede mejorar el rendimiento de GPT-4 en un asombroso 30 % al pedirle que reflexione sobre “¿Por qué se equivocó?”
La toma de decisiones y la búsqueda intensiva de conocimiento son dos habilidades esenciales para los agentes de lenguaje natural a gran escala en entornos desconocidos. GPT-3 de OpenAI y PaLM de Google son solo dos ejemplos de LLM que han mostrado un rendimiento impresionante en varios puntos de referencia. Las habilidades similares a las humanas de estos modelos para comprender tareas en entornos específicos representan un gran paso adelante en el procesamiento del lenguaje natural.
Los agentes pueden superar las altas barreras sintácticas que podrían conducir a errores falsos negativos en tareas complejas si se basan en el lenguaje natural. Sin embargo, debido a sus espacios de estado grandes y, a menudo, ilimitados, los agentes de RL de lenguaje natural presentan un desafío importante para aprender políticas óptimas.
Se han propuesto varios enfoques de toma de decisiones para ayudar a los agentes del lenguaje natural a elegir en un entorno basado en texto sin el beneficio de una política aprendida. Sin embargo, el modelo se vuelve más propenso a alucinar en secuencias más largas, lo que reduce la precisión de estos métodos a medida que aumenta el número de subtareas.
Los agentes de lenguaje natural pueden resolver tareas de manera más intuitiva gracias a las cualidades humanas avanzadas de los LLM a gran escala. Los métodos Human-in-the-loop (HITL) se han utilizado ampliamente para aumentar el rendimiento al redirigir el rastro de razonamiento del agente después de los errores. Aunque este método mejora el rendimiento con poca participación humana, no es autónomo porque requiere que los entrenadores monitoreen la trayectoria en cada intervalo de tiempo.
Investigadores de la Universidad del Noreste y el Instituto de Tecnología de Massachusetts creen que si se les da la oportunidad de cerrar el ciclo de prueba y error de forma independiente, los LLM harían un buen uso de la autooptimización basada en el lenguaje natural.
Para verificar su hipótesis, el equipo implementa un LLM autorreflexivo y una heurística sencilla para identificar alucinaciones y ejecución de acciones ineficaces dentro de un agente basado en LLM utilizando un enfoque llamado Reflexión. Luego pusieron al agente a prueba en dos puntos de referencia diferentes de aprendizaje del error: el AlfWorld basado en texto y el HotPotQA de preguntas y respuestas. Como resultado, se incrementa la eficiencia en la toma de decisiones y otras tareas basadas en el conocimiento.
La técnica de resolución de problemas ReAct se ve reforzada por la capacidad del agente Reflexion para reflexionar sobre su desempeño, lo que lleva a una tasa de descubrimiento de éxito del 97 % en el punto de referencia AlfWorld en solo 12 pruebas autónomas. Esta es una mejora significativa con respecto a la precisión del 75 % lograda por el agente ReAct base. Se tomaron cien preguntas de HotPotQA y se probó un agente ReAct basado en Reflexion. En comparación con un agente ReAct de referencia, el agente lo superó en un 17 % gracias al refinamiento iterativo de su búsqueda y extracción de contenido en función de los consejos de su memoria. Es importante destacar que Reflexion no está diseñado para lograr puntajes de precisión casi perfectos; más bien, su objetivo es mostrar cómo el aprendizaje por ensayo y error puede facilitar el descubrimiento en tareas y entornos que antes se creían imposibles de resolver.
El equipo destaca que su Reflexión se puede aplicar en problemas más desafiantes, como cuando el agente necesita aprender a generar ideas novedosas, investigar espacios de estado nunca antes vistos y construir planes de acción más precisos basados en su historial de experiencia.