Conozca a Voyager: un agente poderoso para Minecraft con GPT4 y el primer agente de aprendizaje permanente que juega Minecraft puramente en contexto

Estás leyendo la publicación: Conozca a Voyager: un agente poderoso para Minecraft con GPT4 y el primer agente de aprendizaje permanente que juega Minecraft puramente en contexto

El gran problema al que se enfrentan los investigadores de inteligencia artificial en la actualidad es crear entidades encarnadas totalmente autónomas que puedan planificar, explorar y aprender en entornos abiertos. Los métodos tradicionales se basan en acciones fundamentales para entrenar modelos a través del aprendizaje por refuerzo (RL) y el aprendizaje por imitación, lo que dificulta la investigación metódica, la interpretabilidad y la generalización. Los avances recientes en los agentes basados ​​en el modelo de lenguaje grande (LLM) utilizan la información mundial codificada en LLM preentrenados para desarrollar planes de acción consistentes o políticas ejecutables. Se utilizan en actividades de PNL no incorporadas además de las incorporadas como juegos y robótica.

Voyager es el primer agente de aprendizaje permanente incorporado impulsado por LLM en Minecraft, y siempre está explorando nuevos mundos, adquiriendo nuevas habilidades y haciendo descubrimientos sin la ayuda de humanos. Los tres componentes principales de Voyager son:

  1. Un currículum automático, un marco educativo que prioriza el descubrimiento
  2. Un repositorio/biblioteca de habilidades en constante expansión de código ejecutable que puede almacenar y recuperar actividades complejas.
  3. Un mecanismo de aviso para la mejora del programa que incluye iterativamente comentarios del entorno circundante, fallas de ejecución y autoverificación.

Voyager utiliza consultas de caja negra para comunicarse con GPT-4, lo que elimina la necesidad de ajustar los parámetros del modelo. Los talentos adquiridos de Voyager se combinan y mitigan rápidamente el olvido catastrófico, ya que son extensos en el tiempo, interpretables y compositivos. Empíricamente, Voyager demuestra un rendimiento extraordinario en el videojuego Minecraft y un sólido potencial de aprendizaje contextual de por vida. Puede encontrar 3,3 veces más bienes raros, viajar 2,3 veces más lejos y alcanzar hitos cruciales en el árbol tecnológico hasta 15,3 veces más rápido que el SOTA anterior. Mientras que otros métodos no logran generalizar, Voyager puede aplicar la biblioteca de habilidades aprendidas en un nuevo entorno de Minecraft para realizar nuevos desafíos desde cero.

🔥 Recomendado:  10 de los mejores ETF de materias primas para inversores

Los talentos de Voyager crecen rápidamente gracias a la síntesis compositiva de habilidades complejas, lo que evita el olvido catastrófico que afecta a otras formas de aprendizaje continuo. El progreso de exploración de la Voyager y el estado actual del agente se tienen en cuenta en el plan de estudios automático, que propone tareas cada vez más difíciles de resolver para la Voyager. Con “descubrir tantas cosas diferentes como sea posible” como su propósito primordial, GPT-4 crea el esquema del curso. Esta estrategia podría interpretarse como una búsqueda de novedades que opera dentro de un contexto determinado. La biblioteca de habilidades de Voyager se construye con el tiempo a partir de los programas activos que contribuyen a una resolución de tareas exitosa. La descripción incrustada de cada programa sirve como un índice que se puede recuperar en futuras instancias análogas.

  • Pero los LLM necesitan ayuda para desarrollar el código de acción correcto en el acto y, a menudo, se equivocan. La comunidad de investigación ha propuesto un sistema de aviso iterativo para resolver este problema.
  • Ejecuta el código creado para recopilar datos de la simulación de Minecraft y un seguimiento de pila de errores de compilación.
  • GPT-4 ahora incorpora los comentarios en su solicitud de programación mejorada.
  • Itera hasta que un verificador integrado certifica que la tarea ha finalizado cuando el código se agrega a la biblioteca de habilidades.

El código y los pasos de instalación se pueden encontrar en GitHub aquí https://github.com/MineDojo/Voyager

Limitaciones y trabajo futuro

  • Restricción y el precio del trabajo futuro. Hay gastos importantes relacionados con la API de GPT-4. Cuesta 15 centavos más que GPT-3.5. Sin embargo, la mejora cuántica de GPT-4 en la calidad de generación de código es lo que necesita Voyager, y GPT-3.5 y los LLM de código abierto no pueden proporcionarlo.
  • imprecisiones. A veces, a pesar de los empujones iterativos del agente, el agente todavía se atasca y necesita ayuda para desarrollar el talento adecuado. Es posible que el módulo de autoverificación funcione mal, por ejemplo, al no interpretar una cuerda de araña como evidencia de un intento exitoso de matar arañas. El plan de estudios automático puede volver a intentarlo más tarde si falla.
  • alucinaciones. Hay momentos en que el currículum automático sugiere metas que son imposibles de alcanzar. Aunque el adoquín no se puede usar como combustible en el juego, GPT-4 lo hace con frecuencia. Por ejemplo, puede indicarle al agente que cree una “espada de cobre” o una “placa de pecho de cobre”, las cuales no existen en el juego. La creación de código también induce alucinaciones. También puede causar problemas de ejecución al intentar utilizar una función no admitida por las API para las primitivas de control especificadas.
🔥 Recomendado:  Entrevista: Ocho preguntas clave de marketing de influencers con el experto de la industria Philip Brown

Los investigadores son optimistas de que las futuras actualizaciones de los modelos API de GPT y los métodos de vanguardia para ajustar los LLM de código abierto eliminarán estos inconvenientes. Voyager podría usarse como punto de partida para crear agentes generalistas efectivos sin ajustar los parámetros del modelo. La capacidad de la Voyager para el aprendizaje permanente es impresionante en esta situación. El sistema puede construir una biblioteca en constante expansión de programas de acción reutilizables, interpretables y generalizables para realizar tareas individuales. Voyager sobresale en la búsqueda de nuevos recursos, el progreso a través del árbol tecnológico de Minecraft, la exploración de nuevos entornos y la aplicación de los conocimientos adquiridos a situaciones novedosas en un mundo recién generado.