Estás leyendo la publicación: Los mejores recursos para aprender el aprendizaje por refuerzo en 2022
El aprendizaje por refuerzo es un método de entrenamiento de ML basado en recompensar los comportamientos deseados y castigar los no deseados. Un agente de aprendizaje por refuerzo puede percibir e interpretar su entorno, tomar acciones y aprender a través de prueba y error. El aprendizaje por refuerzo se utiliza en gran medida en la conducción autónoma, la refrigeración automatizada de los centros de datos, los motores de recomendación, los chatbots personalizados, el comercio de acciones, etc.
Aquí, analizamos los principales recursos para aprender el aprendizaje por refuerzo en 2022:
Curso de RL por David Silver
El curso del líder de investigación de DeepMind, David Silver, sobre aprendizaje reforzado impartido en el University College London se presenta en diez videos de YouTube. Los videos cubren Introducción al aprendizaje por refuerzo, procesos de decisión de Markov, planificación mediante programación dinámica, predicción sin modelo, control sin modelo, aproximación de función de valor, métodos de gradiente de políticas, integración de aprendizaje y planificación, exploración y explotación, estudio de caso: RL en Classic Juegos. Para acceder a diapositivas, tareas, exámenes, consulte el enlace.
Introducción al aprendizaje por refuerzo con aproximación de funciones
Rich S. Sutton, científico investigador de DeepMind y profesor de ciencias de la computación en la Universidad de Alberta, explica el problema formal subyacente, como los procesos de decisión de Markov, los métodos de solución central, la programación dinámica, los métodos de Monte Carlo y el aprendizaje de diferencia temporal en esto en -Tutorial de profundidad.
Una historia de aprendizaje por refuerzo
El profesor AG Barto, profesor emérito de informática en la Universidad de Massachusetts Amherst, ofrece una conferencia detallada. Los capítulos incluyen la hipótesis de la “neurona hedonista”, el aprendizaje supervisado, el aprendizaje por refuerzo, una propiedad única de RL, Edward L Thorndike, la ley del efecto, RL = búsqueda + memoria, nuestra primera sorpresa, aunque hubo excepciones, un artículo inicial con Rich Sutton , Redes de memoria asociativa, Red de búsqueda asociativa y muchas más.
curso NTPEL
El curso incluye una serie de conferencias del Prof. Balaraman Ravindran, Ciencias de la Computación e Ingeniería y el Centro Robert Bosch para la Ciencia de Datos e IA, IIT-Madras sobre Aprendizaje por Refuerzo. El curso introduce los fundamentos matemáticos básicos del aprendizaje por refuerzo y destaca algunas de las direcciones recientes de su investigación. La conferencia de 12 semanas contiene material preparatorio, introducción a RL y RL inmediato, algoritmos Bandit, métodos de gradiente de políticas e introducción a Full RL, formulación MDP, ecuaciones de Bellman y pruebas de optimización, programación dinámica y métodos de Monte Carlo, Monte Carlo y métodos de diferencia temporal, Rastreos de elegibilidad, aproximación de funciones, DQN, Q ajustados y enfoques de gradiente de políticas, aprendizaje de refuerzo jerárquico, RL jerárquico: MAXQ y POMDP.
Inteligencia artificial: aprendizaje por refuerzo en Python
Inteligencia artificial: Aprendizaje por refuerzo en Python es una guía completa para el aprendizaje por refuerzo con aplicaciones de comercio de acciones y publicidad en línea. El curso de 14,5 horas está disponible como vídeo bajo demanda en Udemy. La guía le enseñará a aplicar métodos de aprendizaje automático supervisado basados en gradientes para el aprendizaje por refuerzo, comprender el aprendizaje por refuerzo a nivel técnico, comprender la relación entre el aprendizaje por refuerzo y la psicología, e implementar 17 algoritmos de aprendizaje por refuerzo diferentes.
Aprendizaje por refuerzo en Unity
Los estudiantes pueden aprender a configurar el aprendizaje por refuerzo en Unity3D y desbloquear el poder de combinar motores de juego con inteligencia artificial usándolo para entrenar un mosaico para equilibrar una pequeña pelota. Los detalles se pueden encontrar en https://github.com/Unity-Technologies
https://unity.com/
Introducción al aprendizaje por refuerzo
Aprendizaje de refuerzo práctico
El aprendizaje por refuerzo práctico de Coursera cubre los fundamentos de los métodos de RL: iteración de valores/políticas, q-learning, gradiente de políticas, etc.; usar redes neuronales profundas para tareas de RL; algoritmo RL de última generación; y enseñar redes neuronales para jugar.
Aprendizaje por refuerzo profundo
El curso en GitHub tiene una serie de artículos y videos para ayudarlo a dominar las habilidades y arquitecturas para convertirse en un experto en aprendizaje de refuerzo profundo. El curso lo ayudará a construir una cartera profesional sólida mediante la implementación de agentes con Tensorflow y PyTorch que aprenden a jugar Space invaders, Minecraft, Starcraft, Sonic the Hedgehog y más.