Estás leyendo la publicación: Investigadores de DeepMind desarrollan ‘BYOL-Explore’: un algoritmo de exploración impulsado por la curiosidad que aprovecha el poder del aprendizaje autosupervisado para resolver tareas parcialmente observables con escasa recompensa
El aprendizaje por refuerzo (RL) requiere la exploración del entorno. La exploración es aún más crítica cuando los incentivos extrínsecos son pocos o difíciles de obtener. Debido al enorme tamaño del entorno, no es práctico visitar todos los lugares en entornos ricos debido a la variedad de rutas de exploración útiles. En consecuencia, la pregunta es: ¿cómo puede un agente decidir qué áreas del entorno vale la pena explorar? La exploración impulsada por la curiosidad es un enfoque viable para abordar este problema. Implica aprender un modelo mundial, un modelo predictivo de conocimiento específico sobre el mundo y (ii) explotar las disparidades entre las predicciones y la experiencia del modelo mundial para crear recompensas intrínsecas.
Un agente de RL que maximiza estos incentivos intrínsecos se dirige hacia situaciones en las que el modelo mundial no es confiable o satisfactorio, creando nuevos caminos para el modelo mundial. En otras palabras, la calidad de la política de exploración está influenciada por las características del modelo mundial, que a su vez ayuda al modelo mundial al recopilar nuevos datos. Por lo tanto, podría ser crucial abordar el aprendizaje del modelo mundial y el aprendizaje de la política exploratoria como un problema cohesivo a resolver en lugar de dos tareas separadas. Los investigadores de Deepmind, teniendo esto en cuenta, introdujeron un algoritmo de exploración basado en la curiosidad BYOL-Explore. Su atractivo radica en su simplicidad conceptual, generalidad y excelente desempeño.
La estrategia se basa en Bootstrap Your Own Latent (BYOL), un método predictivo de latente autosupervisado que pronostica una versión anterior de su representación latente. Para manejar los problemas de crear la representación del modelo mundial y la política impulsada por la curiosidad, BYOL-Explore aprende un modelo mundial con una pérdida de predicción autosupervisada y entrena una política impulsada por la curiosidad utilizando la misma pérdida. La visión por computadora, el aprendizaje sobre representaciones gráficas y el aprendizaje de representaciones RL han utilizado con éxito este enfoque de arranque. Por el contrario, BYOL-Explore va un paso más allá y no solo aprende un modelo de mundo flexible, sino que también explota la pérdida del modelo de mundo para motivar la exploración.
BYOL-Explore ha sido probado utilizando el conjunto DM-HARD-8 de ocho desafiantes actividades en 3D en primera persona con pequeñas recompensas. Dado que estas actividades implican completar una serie de interacciones organizadas y exactas con los objetos reales en el entorno, que es poco probable que ocurran con un método de exploración aleatoria vainilla, requieren una exploración eficiente (ver la figura a continuación).
BYOL-Explore también se evaluó frente a los diez juegos Atari de exploración más desafiantes para demostrar la capacidad de generalización de la metodología. BYOL-Explore supera las conocidas técnicas de exploración impulsadas por la curiosidad en cada área, incluida la destilación aleatoria de redes (RND) y el módulo de curiosidad intrínseca (ICM). En DM-HARD-8, BYOL-Explore realiza la mayoría de las tareas a nivel humano utilizando simplemente recompensas extrínsecas complementadas con recompensas intrínsecas, mientras que los avances sustanciales anteriores requerían demostraciones humanas.
Sorprendentemente, BYOL-Explore logra este rendimiento con solo un modelo mundial y una red de políticas capacitadas simultáneamente en todas las tareas. Finalmente, como prueba adicional de su capacidad de generalización, BYOL-Explore supera a otros agentes rivales como Agent57 y Go-Explore en los diez juegos de exploración más desafiantes de Atari mientras tiene una arquitectura más sencilla. BYOL-Explore abre las vías de investigación de algoritmos para manejar entornos 2-D o 3-D, de una o varias tareas, total o parcialmente observables.
Este artículo está escrito como un artículo resumido por el personal de Marktechpost basado en el documento ‘BYOL-Explore: Exploración mediante predicción bootstrapped‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, entrada en el blog.
Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools