Estás leyendo la publicación: Incitación recursiva de crítica y mejora (RCI): un enfoque para mejorar los modelos de lenguaje grande (LLM) en tareas informáticas y de razonamiento
Los modelos de lenguaje grande están mejorando con cada nuevo desarrollo en la industria de la inteligencia artificial. Con cada modificación y versión, los LLM son cada vez más capaces de satisfacer diferentes requisitos en aplicaciones y escenarios. ChatGPT lanzado recientemente, desarrollado por OpenAI, que funciona en la arquitectura del transformador GPT, es uno de los LLM más populares. Con la arquitectura GPT-4 más reciente, ChatGPT ahora incluso funciona bien con datos multimodales.
El objetivo de la IA siempre ha sido desarrollar modelos y técnicas que ayuden a automatizar tareas repetitivas y resolver problemas complejos imitando a los humanos. Aunque los LLM manipulan con éxito el texto cuando realizan tareas informáticas al realizar acciones con el teclado y el mouse, enfrentan algunos desafíos. Estos desafíos incluyen garantizar que las acciones generadas sean apropiadas para la tarea dada, factibles en el estado actual del agente y ejecutables. Estos tres desafíos se conocen como puesta a tierra de tareas, puesta a tierra de estados y puesta a tierra de agentes.
Un nuevo estudio ha introducido un enfoque llamado Recursive Criticism and Improvement (RCI), que utiliza un agente LLM previamente capacitado para ejecutar tareas informáticas guiadas por lenguaje natural. RCI utiliza un esquema de solicitud que solicita al LLM que genere una salida. A esto le sigue la identificación de los problemas con la salida y, por lo tanto, la generación de una salida actualizada.
RCI mejora los tres desafíos de los enfoques anteriores, es decir, puesta a tierra de tareas, puesta a tierra de estados y puesta a tierra de agentes, lo que da como resultado un mejor rendimiento en la ejecución de tareas informáticas. Para las tareas informáticas, la indicación RCI se aplica en tres etapas. Primero, el LLM genera un plan de alto nivel, luego genera una acción basada en el plan y el estado actual y, finalmente, formatea la acción en la acción del teclado o mouse derecho.
La puesta a tierra de la tarea consiste básicamente en producir un plan de alto nivel basado en el texto de la tarea para garantizar que las acciones tomadas por el agente sean apropiadas para la tarea dada. Por otro lado, la puesta a tierra del estado conecta los conceptos de alto nivel derivados del paso de puesta a tierra de la tarea con los elementos HTML reales presentes en el estado actual del agente, asegurando así que las acciones producidas por el agente sean factibles en el estado actual. Finalmente, la puesta a tierra del agente asegura que las acciones generadas por el agente sean ejecutables y en el formato correcto.
Este nuevo enfoque se puede usar en ChatGPT para resolver tareas informáticas generales usando un teclado y un mouse sin necesidad de complementos. En las indicaciones de RCI, el LLM primero identifica los problemas con la respuesta original y, en función de esos problemas, improvisa la respuesta. Una característica única de este enfoque es que solo requiere unas pocas demostraciones por tarea, a diferencia de los métodos existentes que requieren miles de demostraciones por tarea.
El enfoque RCI supera a los métodos LLM existentes para automatizar tareas informáticas y supera los métodos de aprendizaje supervisado y aprendizaje reforzado en el punto de referencia MiniWoB++. Al comparar RCI con las indicaciones de Chain-of-Thought (CoT), que es un método reconocido por su eficacia en las tareas de razonamiento, los investigadores descubrieron un gran impacto colaborativo entre las indicaciones de RCI y las dos líneas de base de CoT. En conclusión, Recursive Criticism and Improvement (RCI) parece prometedor para resolver tareas informáticas complejas y problemas de razonamiento con LLM.