Estás leyendo la publicación: Conozca Powderworld: un entorno de simulación ligero para comprender la generalización de la IA
A pesar de los avances recientes en la investigación de RL, la capacidad de generalizar a nuevas tareas sigue siendo uno de los principales problemas tanto en el aprendizaje por refuerzo (RL) como en la toma de decisiones. Los agentes de RL se desempeñan notablemente en un entorno de una sola tarea, pero con frecuencia cometen errores cuando se enfrentan a obstáculos imprevistos. Además, los agentes de RL de una sola tarea pueden adaptarse en gran medida a las tareas en las que están capacitados, lo que los hace inadecuados para las aplicaciones del mundo real. Aquí es donde puede ser útil un agente general que pueda manejar con éxito varias tareas sin precedentes y dificultades imprevistas.
La gran mayoría de los agentes generales están capacitados utilizando una variedad de tareas diversas. Investigaciones recientes de aprendizaje profundo han demostrado que la capacidad de un modelo para generalizar se correlaciona estrechamente con la cantidad de datos de entrenamiento utilizados. El principal problema, sin embargo, es que desarrollar tareas de capacitación es costoso y difícil. Como resultado, la mayoría de las configuraciones típicas son, por naturaleza, demasiado específicas y estrechas en su enfoque en un solo tipo de tarea. La mayor parte de la investigación previa en este campo se ha centrado en distribuciones de tareas especializadas para el entrenamiento multitarea, con especial atención a un problema particular de toma de decisiones. La comunidad de RL se beneficiaría significativamente de un “entorno básico” que permita una variedad de tareas que se originen a partir de las mismas reglas básicas, ya que existe una necesidad cada vez mayor de investigar los vínculos entre las tareas de capacitación y la generalización. Además, sería ventajoso contar con una configuración que simplifique la comparación de diferentes variaciones de tareas de entrenamiento.
Dando un paso hacia el apoyo al aprendizaje de agentes y la generalización de múltiples tareas, dos investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT diseñaron Powderworld, un entorno de simulación. Este entorno de simulación simple se ejecuta directamente en la GPU para ofrecer una dinámica de entorno eficaz. Dentro de su actual, Powderworld también incluye dos marcos para especificar tareas de aprendizaje de refuerzo y modelado del mundo. Si bien se encontró en la instancia de aprendizaje por refuerzo que un aumento en la complejidad de la tarea promueve la generalización hasta un punto de inflexión específico, después del cual el rendimiento se deteriora, los modelos mundiales entrenados en entornos cada vez más complejos demuestran un mejor rendimiento de transferencia. El equipo cree que estos resultados pueden servir como un fantástico trampolín para futuras investigaciones comunitarias que utilicen Powderworld como modelo inicial para investigar la generalización.
Powderworld se desarrolló con la intención de ser modular y apoyar las interacciones emergentes sin sacrificar su capacidad de diseño expresivo. Los principios fundamentales que especifican cómo deben interactuar dos elementos cercanos constituyen el núcleo de Powderworld. La consistencia de estas normas proporciona la base para la generalización de los agentes. Además, estas interacciones locales pueden expandirse para crear fenómenos emergentes a mayor escala. Por lo tanto, los agentes pueden generalizar utilizando estos antecedentes fundamentales de Powderworld.
Otro obstáculo significativo para la generalización de RL es que las tareas con frecuencia no son ajustables. En cambio, un entorno ideal debería ofrecer un espacio para tareas que puedan explorarse y puedan representar objetivos y desafíos emocionantes. Cada tarea está representada por Powderworld como una matriz 2D de elementos, lo que permite varias técnicas de creación de procedimientos. Es más probable que un agente enfrente estos obstáculos porque hay muchas formas diferentes de evaluar las capacidades de un agente en particular. Powerworld permite un tiempo de ejecución eficiente mediante la ejecución de grandes lotes de simulación en paralelo porque está diseñado para ejecutarse en la GPU. Este beneficio se vuelve esencial porque el aprendizaje multitarea puede ser bastante costoso desde el punto de vista computacional. Además, Powderworld utiliza una forma de matriz compatible con redes neuronales para el diseño de tareas y observaciones de agentes.
En su versión más reciente, el equipo proporcionó una base preliminar para entrenar modelos mundiales dentro de Powderworld. El objetivo del modelo mundial es pronosticar el estado después de un número determinado de pasos de tiempo de simulación. El rendimiento del modelo mundial se informa en una colección de estados de prueba retenidos, ya que los experimentos de Powderworld deberían considerar la generalización. Según varios estudios, el equipo también descubrió que los modelos con datos de entrenamiento más complejos funcionaron mejor en términos de generalización. Más elementos expuestos a los modelos durante el entrenamiento dieron como resultado un mayor rendimiento, lo que demuestra que la simulación realista de Powderworld es lo suficientemente rica como para que los modelos del mundo desarrollen representaciones que se pueden modificar.
El equipo se concentró en explorar tareas estocásticamente diversas para el aprendizaje por refuerzo, donde los agentes tenían que superar obstáculos desconocidos durante las pruebas. Las evaluaciones del experimento mostraron que aumentar la complejidad de la tarea de entrenamiento ayuda a la generalización hasta un punto de inflexión específico de la tarea, después del cual las tareas de entrenamiento demasiado complejas crean inestabilidad durante el aprendizaje por refuerzo. Esta distinción entre el impacto de la complejidad en el entrenamiento en el modelado del mundo de Powderworld y las tareas de aprendizaje por refuerzo llama la atención sobre un tema de investigación interesante para el futuro.
Uno de los principales problemas con el aprendizaje por refuerzo es generalizar a tareas nuevas y no probadas. Para abordar este problema, los investigadores del MIT desarrollaron Powderworld, un entorno de simulación que puede producir distribuciones de tareas para el aprendizaje tanto supervisado como de refuerzo. Los creadores de Powderworld esperan que su entorno de simulación liviano estimule una mayor investigación para desarrollar un marco sólido pero computacionalmente efectivo para la complejidad de tareas y la generalización de agentes. Anticipan que la investigación futura usará Powderworld para investigar estrategias de diseño de entornos no supervisados y el aprendizaje de agentes abiertos y abordar varios otros temas.