Estás leyendo la publicación: Investigadores del MIT presentan un marco de aprendizaje automático que permite a los agentes de IA cooperativos o competitivos encontrar una solución óptima a largo plazo
El aprendizaje por refuerzo es un método de aprendizaje automático en el que un agente artificial aprende de sus errores. El agente recibe una recompensa de los investigadores cuando sus acciones “positivas” conducen al resultado deseado. Se logra un desempeño de nivel experto cuando el agente modifica las acciones para maximizar una recompensa.
El “aprendizaje de refuerzo de múltiples agentes” implica que múltiples agentes trabajen juntos para resolver un problema. Las cosas se complican más cuando varios agentes cooperativos o competitivos están aprendiendo simultáneamente. Cuando los agentes toman en cuenta las acciones futuras de sus pares y los efectos de sus acciones en las de sus pares, el problema rápidamente se vuelve demasiado computacionalmente intensivo para resolverlo de manera eficiente. Esta es la razón por la cual los métodos alternativos ignoran el largo plazo en favor de soluciones rápidas.
En un mundo donde los agentes de IA aprenden todos a la vez, es difícil enseñar a un agente a predecir las acciones de otro. El problema principal del aprendizaje por refuerzo multiagente es aprender políticas útiles en presencia de otros agentes que también están aprendiendo y cuyos comportamientos cambiantes alteran conjuntamente la transición y la dinámica de recompensa del entorno.
Los métodos actuales para este problema tienden a ser miopes debido a su complejidad; los agentes solo pueden anticipar las acciones de sus compañeros de equipo o competidores unos pocos pasos antes de tiempo, lo que resulta en un rendimiento mediocre a lo largo de un juego.
Los agentes de IA ahora tienen el beneficio de la previsión gracias a un método novedoso desarrollado por investigadores del MIT, el MIT-IBM Watson AI Lab y otras instituciones. Su marco de aprendizaje automático permite a las entidades de IA, ya sean cooperativas o competitivas, pensar en las acciones de los demás a través de infinitos pasos en el futuro. Como resultado, los agentes pueden hacer los ajustes necesarios a sus acciones para dar forma a las acciones futuras de otros agentes y encontrar la mejor solución posible.
Un enjambre de drones autónomos puede utilizar esta arquitectura para localizar a un excursionista desaparecido en un bosque denso o automóviles autónomos para mantener seguros a sus pasajeros mientras navegan por una carretera congestionada.
Muchas acciones a corto plazo tienen poca relación con el resultado. Ya sea que los agentes de IA trabajen juntos o unos contra otros, es importante que sus acciones converjan en el futuro. Este comportamiento convergente era el principal interés del equipo y desarrollaron un método matemático para lograrlo.
Dado que no se puede ingresar infinito en un algoritmo, los investigadores diseñaron su sistema de tal manera que los agentes anticipan un momento en el futuro en el que sus acciones se promediarán con las de otros agentes, un estado llamado equilibrio. Si todos los agentes se influyen mutuamente, el sistema se aproxima a un “equilibrio activo”, término utilizado por los autores del estudio. En un sistema multiagente, el desempeño a largo plazo de los agentes está determinado por un punto de equilibrio particular, y puede haber más de uno de esos puntos. Por lo tanto, un agente poderoso moldea activamente las acciones de otros agentes en el futuro para que alcancen un equilibrio óptimo desde el punto de vista del agente.
Idearon un marco de aprendizaje automático llamado MÁS (que significa influencia activa de refuerzo completo con recompensa promedio) que enseña a los agentes a ajustar sus acciones en respuesta a las acciones de otros agentes hasta que alcanzan un estado de equilibrio dinámico.
ADEMÁS utiliza dos módulos de aprendizaje automático para lograr esto. El primero es un módulo de inferencia, que permite que un bot prediga las acciones de otros bots y los algoritmos de aprendizaje que emplean basándose únicamente en su historial. Con estos datos en la mano, el agente puede modificar sus acciones e interacciones sociales para optimizar su recompensa.
En muchos escenarios, incluido un par de robots que participan en un combate estilo sumo y una guerra entre dos equipos de 25 agentes, compararon su método con los marcos de aprendizaje de refuerzo multiagente existentes. La mayoría de las veces, los juegos fueron ganados por los agentes de IA que usaban ADEMÁS en ambos casos.
Según los investigadores, su sistema es más escalable que otros y requiere una computadora central para gobernar a los agentes ya que está descentralizado. En palabras simples, significa que los agentes aprenden a ganar los juegos de forma independiente.
Los investigadores probaron MÁS en un contexto de juego, pero tiene una amplia aplicabilidad para resolver múltiples problemas de múltiples agentes. Los economistas podrían usarlo, por ejemplo, al tratar de desarrollar una política viable para un sistema complejo en el que los comportamientos y los intereses de numerosas entidades son dinámicos.