Estás leyendo la publicación: Investigadores de Apple desarrollaron un agente de aprendizaje bayesiano adaptativo que emplea una nueva forma de memoria dinámica para la optimización secuencial interpretable
La práctica de aprender gradualmente de los datos para hacer mejores juicios con el tiempo se conoce como optimización secuencial. Con frecuencia se expresa en la literatura de aprendizaje automático como el problema del bandido de múltiples brazos, en el que un agente de aprendizaje por refuerzo aprende gradualmente a maximizar la recompensa general. Dichos agentes se han utilizado en el desarrollo de sistemas de experimentación y recomendación. Sin embargo, existe un problema adicional en los despliegues en el mundo real de tales agentes de aprendizaje: la recompensa relativa de diferentes armas de bandidos varía durante la vida del agente de aprendizaje. Los investigadores se han estancado durante mucho tiempo en garantizar que el agente pueda adaptarse a las condiciones cambiantes.
Para cumplir con la tarea de aprendizaje desafiante en entornos no estacionarios, el agente debe retener el conocimiento actual y seleccionar qué conocimiento previo olvidar. Esta opción de olvidar es necesaria para que el agente pueda adaptarse a los cambios en los incentivos. Este conocimiento puede que ya no sea válido para minimizar el arrepentimiento. Se han propuesto varias técnicas para tal olvido, todas para maximizar el rendimiento a largo plazo del agente frente a condiciones cambiantes. Estos procesos, sin embargo, con frecuencia no se construyen teniendo en cuenta la interpretabilidad.
Muchas aplicaciones de bandido solo se preocupan por el desafío de minimizar el arrepentimiento sin considerar la interpretabilidad humana asociada de su comportamiento. Dicha interpretabilidad debe priorizarse en cualquier sistema del mundo real en el que las personas interactúen con el resultado de la inteligencia artificial. Además, muchos métodos contemporáneos para lidiar con la no estacionariedad a menudo necesitan una especificación explícita de la memoria que el agente debe mantener, como a través de un marco temporal predeterminado o un factor de descuento específico.
Aunque la optimización de hiperparámetros puede identificar valores apropiados para estos parámetros, verificar que un valor dado funcionaría bien en el espectro de no estacionariedad que un sistema del mundo real puede experimentar es imposible. Para eludir esta restricción, los investigadores sugieren una solución al problema de la adaptación de la recompensa que permite que la memoria crezca y disminuya dinámicamente según sea necesario. Crean un programa de agente de aprendizaje bayesiano adaptativo que utiliza un tipo único de memoria dinámica de recompensas anteriores.
Nuestra técnica se distingue por permitir activamente la interpretabilidad con pruebas de hipótesis estadísticas al apuntar al punto de ajuste deseado de poder estadístico al comparar recompensas. Utilizan factores secuenciales de Bayes para medir la confianza estadística en pruebas de hipótesis sólidas. Más concretamente, cada vez que el agente recibe un nuevo lote de datos, calcula la confianza estadística sobre la diferencia relativa entre las recompensas del brazo en función de los datos que ha observado hasta el momento. Cuando se obtiene el grado necesario de confianza estadística, lo que sugiere que las recompensas del brazo son considerablemente diferentes o idénticas, el agente olvida gradualmente su conocimiento de las recompensas anteriores, disminuyendo su memoria.
Ellos evalúan el desempeño de nuestro enfoque al problema de olvidar el algoritmo ADWIN, una solución de memoria adaptativa existente, utilizando simulaciones numéricas. Muestran que el agente logra un compromiso entre estabilidad ruidosa. Si la confianza estadística cae por debajo de un cierto umbral, el agente comienza a volver a hacer crecer su memoria de recompensas anteriores hasta que se restablece la confianza estadística. Esto mejora la adaptabilidad a los cambios reales en las recompensas genuinas y la interpretabilidad de esta adaptación.
Un operador humano puede controlar nuestro agente bayesiano adaptativo especificando el poder estadístico deseado, lo que le permite interpretar el conocimiento del agente y tomar decisiones comerciales basadas en datos más exitosas. Visualizan y muestran el comportamiento adaptativo de un agente de aprendizaje desplegado. Para demostrar esto, diseñan una arquitectura de sistema general que permite la implementación de optimización en el mundo real a escala.
Este artículo está escrito como un artículo de resumen por el personal de Marktechpost basado en el trabajo de investigación ‘Memoria dinámica para optimización secuencial interpretable‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools