Estás leyendo la publicación: Los LLM superan el aprendizaje por refuerzo: conozca SPRING: un marco de referencia innovador para LLM diseñado para permitir la planificación y el razonamiento de la cadena de pensamiento en contexto
PRIMAVERA es una política basada en LLM que supera a los algoritmos de aprendizaje por refuerzo en un entorno interactivo que requiere planificación y razonamiento multitarea.
Un grupo de investigadores de Universidad de Carnegie mellon, NVIDIA, universidad ariely microsoft han investigado el uso de Large Language Models (LLM) para comprender y razonar con el conocimiento humano en el contexto de los juegos. Proponen un enfoque en dos etapas llamado PRIMAVERAque implica estudiar un trabajo académico y luego usar un marco de preguntas y respuestas (QA) para justificar el conocimiento obtenido.
Más detalles sobre PRIMAVERA
En la primera etapa, los autores leen el código fuente LaTeX del artículo original de Hafner (2021) para extraer conocimiento previo. Emplearon un LLM para extraer información relevante, incluida la mecánica del juego y los comportamientos deseables documentados en el documento. Luego utilizaron un marco de resumen de control de calidad similar al de Wu et al. (2023) para generar un diálogo de control de calidad basado en el conocimiento extraído, lo que permite a SPRING manejar diversa información contextual.
La segunda etapa se centró en el razonamiento de cadena de pensamiento en contexto utilizando LLM para resolver juegos complejos. Construyeron un gráfico acíclico dirigido (DAG) como un módulo de razonamiento, donde las preguntas son nodos y las dependencias entre preguntas se representan como bordes. Por ejemplo, la pregunta “Para cada acción, ¿se cumplen los requisitos?” está vinculado a la pregunta “¿Cuáles son las 5 acciones principales?” dentro del DAG, estableciéndose una dependencia de esta última cuestión a la primera.
Las respuestas de LLM se calculan para cada nodo/pregunta atravesando el DAG en orden topológico. El nodo final en el DAG representa la pregunta sobre la mejor acción a tomar, y la respuesta del LLM se traduce directamente en una acción ambiental.
Experimentos y Resultados
The Crafter Environment, presentado por Hafner (2021), es un juego de supervivencia de mundo abierto con 22 logros organizados en un árbol tecnológico de profundidad 7. El juego se representa como un mundo de cuadrícula con observaciones de arriba hacia abajo y un espacio de acción discreto que consta de 17 opciones. Las observaciones también brindan información sobre el estado actual del inventario del jugador, incluidos los puntos de salud, la comida, el agua, los niveles de descanso y los elementos del inventario.
Los autores compararon SPRING y los métodos populares de RL en el punto de referencia de Crafter. Posteriormente, se llevaron a cabo experimentos y análisis en diferentes componentes de su arquitectura para examinar el impacto de cada parte en las habilidades de “razonamiento” en contexto del LLM.
Los autores compararon el rendimiento de varias líneas base de RL con SPRING con GPT-4, condicionado por el documento ambiental de Hafner (2021). SPRING supera los métodos anteriores de última generación (SOTA) por un margen significativo, logrando una mejora relativa del 88 % en la puntuación del juego y una mejora del 5 % en la recompensa en comparación con el método RL de mejor rendimiento de Hafner et al. (2023).
En particular, SPRING aprovecha el conocimiento previo de la lectura del documento y no requiere pasos de capacitación, mientras que los métodos de RL generalmente requieren millones de pasos de capacitación.
La figura anterior representa un gráfico de tasas de desbloqueo para diferentes tareas, comparando SPRING con las líneas de base populares de RL. SPRING, fortalecido por el conocimiento previo, supera a los métodos de RL en más de diez veces en logros como “Hacer un pico de piedra”, “Hacer una espada de piedra” y “Recoger hierro”, que están más profundos en el árbol tecnológico (hasta la profundidad 5) y desafiante de alcanzar a través de la exploración aleatoria.
Además, SPRING se desempeña perfectamente en logros como “Comer vaca” y “Recoger bebida”. Al mismo tiempo, los marcos de RL basados en modelos como Dreamer-V3 tienen tasas de desbloqueo significativamente más bajas (más de cinco veces más bajas) para “Eat Cow” debido al desafío de llegar a las vacas en movimiento a través de la exploración aleatoria. Es importante destacar que SPRING no realiza la acción “Colocar piedra”, ya que Hafner (2021) no la consideró beneficiosa para el agente en el artículo, aunque podría lograrse fácilmente a través de una exploración aleatoria.
Limitaciones
Una limitación del uso de un LLM para interactuar con el entorno es la necesidad de reconocimiento y puesta a tierra de objetos. Sin embargo, esta limitación no existe en entornos que brindan información precisa de los objetos, como los juegos contemporáneos y los mundos de realidad virtual. Si bien los pilares visuales preentrenados luchan con los juegos, se desempeñan razonablemente bien en entornos similares al mundo real. Los avances recientes en los modelos de lenguaje visual indican el potencial de soluciones confiables en la comprensión del lenguaje visual en el futuro.
Conclusión
En resumen, el marco SPRING muestra el potencial de los modelos de lenguaje (LLM) para la comprensión y el razonamiento del juego. Al aprovechar el conocimiento previo de los trabajos académicos y emplear el razonamiento de la cadena de pensamiento en contexto, SPRING supera los métodos de vanguardia anteriores en el punto de referencia de Crafter, logrando mejoras sustanciales en la puntuación y la recompensa del juego. Los resultados resaltan el poder de los LLM en tareas de juegos complejas y sugieren que los avances futuros en los modelos de lenguaje visual podrían abordar las limitaciones existentes, allanando el camino para soluciones confiables y generalizables.