Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER): un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo

Estás leyendo la publicación: Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER): un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo

Diseñar una función de recompensa a mano lleva mucho tiempo y puede tener consecuencias no deseadas. Este es un obstáculo importante en el desarrollo de agentes de toma de decisiones genéricos basados ​​en el aprendizaje por refuerzo (RL).

Los métodos anteriores de aprendizaje basados ​​en videos han recompensado a los agentes cuyas observaciones actuales se parecen más a las de los expertos. No pueden capturar actividades significativas a lo largo del tiempo, ya que las recompensas están condicionadas únicamente a la observación actual. Y la generalización se ve obstaculizada por las técnicas de entrenamiento antagónicas que conducen al colapso del modo.

Los investigadores de UC Berkeley han desarrollado un método novedoso para extraer incentivos de los modelos de predicción de video llamado Incentivos de predicción de video para el aprendizaje por refuerzo (VIPER). VIPER puede aprender funciones de recompensa de películas en bruto y generalizar a dominios no entrenados.

Primero, VIPER usa películas generadas por expertos para entrenar un modelo de predicción. Luego, el modelo de predicción de video se usa para entrenar a un agente en el aprendizaje por refuerzo para optimizar la probabilidad logarítmica de las trayectorias de los agentes. La distribución de las trayectorias del agente debe minimizarse para que coincida con la distribución del modelo de video. Usando las probabilidades del modelo de video como una señal de recompensa directamente, el agente puede ser entrenado para seguir una distribución de trayectoria similar a la del modelo de video. A diferencia de las recompensas a nivel de observación, las proporcionadas por los modelos de video cuantifican la consistencia temporal del comportamiento. También permite marcos de tiempo de capacitación más rápidos y mayores interacciones con el entorno porque evaluar las probabilidades es mucho más rápido que hacer lanzamientos de modelos de video.

🔥 Recomendado:  Los 13 mejores podcasts motivacionales que liberarán tu potencial

En 15 tareas de DMC, 6 tareas de RLBench y 7 tareas de Atari, el equipo realiza un estudio exhaustivo y demuestra que VIPER puede lograr un control de nivel experto sin usar recompensas de tareas. Según los hallazgos, los agentes de RL capacitados por VIPER superaron el aprendizaje de imitación adversario en todos los ámbitos. Dado que VIPER está integrado en la configuración, no le importa qué agente RL se utilice. Los modelos de video ya son generalizables a combinaciones de brazo/tarea que no se encuentran durante el entrenamiento, incluso en el régimen de conjuntos de datos pequeños.

Los investigadores creen que el uso de modelos de video condicionales grandes y preentrenados hará posibles funciones de recompensa más flexibles. Con la ayuda de los avances recientes en el modelado generativo, creen que su trabajo proporciona a la comunidad una base para la especificación de recompensas escalables de películas sin etiquetas.