Estás leyendo la publicación: Google AI presenta un nuevo paradigma de capacitación de aprendizaje por refuerzo (RL), ‘ActorQ’, para acelerar la capacitación RL distribuida actor-aprendiz
Varios desafíos de toma de decisiones secuenciales, como robótica, juegos, física nuclear, navegación con globos, etc., se han abordado con éxito mediante el aprendizaje de refuerzo profundo. Sin embargo, a pesar de su potencial, los tiempos prolongados de entrenamiento son una de sus limitaciones. Aunque el presente método para acelerar el entrenamiento de RL en problemas desafiantes usa entrenamiento distribuido para escalar hasta miles de nodos de procesamiento, todavía necesita el empleo de recursos de hardware sustanciales. Esto aumenta el costo de la capacitación en RL y al mismo tiempo tiene un impacto negativo en el medio ambiente. Sin embargo, varios estudios recientes muestran que las mejoras en el rendimiento de la tecnología ya existente pueden reducir la huella de carbono de los procesos de formación e inferencia.
Las estrategias similares de optimización del sistema que pueden acortar los tiempos de capacitación, aumentar la eficiencia del hardware y reducir las emisiones de dióxido de carbono también son ventajosas para RL. Un método es la cuantificación, que consiste en convertir números de punto flotante de precisión completa (FP32) en cantidades de menor precisión (int8) antes del cálculo. Puede reducir el costo y el ancho de banda del almacenamiento de memoria, lo que permite un procesamiento más rápido y con mayor eficiencia energética. Para facilitar el despliegue de modelos de aprendizaje automático en el borde y acelerar el entrenamiento, la cuantificación se ha aplicado con éxito al aprendizaje supervisado. Sin embargo, la cuantificación aún no se ha utilizado en el entrenamiento de RL.
Dando un paso en este frente, Google Research introdujo un nuevo paradigma conocido como ActorQ en su última publicación, “QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning”. ActorQ aplica la cuantificación para acelerar el entrenamiento de RL entre 1,5 y 5,4 veces al tiempo que conserva el rendimiento. Además, la investigación muestra que la huella de carbono se reduce significativamente en un factor de 1.9-3.8x en comparación con el entrenamiento de precisión total. Los hallazgos del estudio también se publicaron en la revista Transactions of Machine Learning Research.
En el entrenamiento de RL convencional, a un actor se le da una política de aprendizaje y se le indica que explore el entorno y recopile muestras de datos. Luego, el alumno mejora continuamente la política inicial utilizando las muestras que recopiló el actor. ActorQ ejecuta el mismo patrón, excepto que la actualización de la política del alumno a los actores está cuantificada. Luego, el actor usa la política cuantificada int8 para explorar el entorno y recolectar muestras. Los investigadores también muestran las dos ventajas de hacer este tipo de cuantificación en el entrenamiento de RL. La primera es que se reduce la huella de memoria de la política y la segunda es que los actores ejecutan inferencias sobre la política cuantificada para idear acciones para un estado particular del entorno. El proceso de inferencia cuantificado es sustancialmente más rápido que ejecutar la inferencia con total precisión.
ActorQ utiliza el marco RL distribuido de ACME y se probó en varios entornos, incluidos Deepmind Control Suite y OpenAI Gym. El equipo también demuestra cuán rápidos y efectivos son D4PG y DQN. Dado que DQN es un algoritmo RL ampliamente conocido y aceptado y que D4PG era el mejor algoritmo de aprendizaje en ACME para las tareas de Deepmind Control Suite, se eligió. Los investigadores aceleraron significativamente el entrenamiento de las estrategias de RL (entre 1,5x y 5,41x). Incluso cuando los actores realizan una inferencia cuantificada int8, el rendimiento aún se mantiene, lo que es más significativo. La mejora en la huella de carbono se determinó comparando las emisiones de carbono generadas durante el entrenamiento con la política FP32 con las generadas con la política int8. Los investigadores descubrieron que, en comparación con operar con total precisión, la cuantificación de las políticas reduce las emisiones de carbono entre 1,9x y 3,76x. Una huella de carbono reducida resulta directamente de utilizar el hardware de manera más efectiva a través de la cuantificación. A medida que los sistemas RL se amplían para ejecutarse en miles de núcleos y aceleradores de hardware distribuidos, la reducción absoluta de carbono (medida en kilos de CO2) puede ser muy considerable.
En resumen, ActorQ muestra cómo se puede usar la cuantificación para mejorar varios elementos de RL, como producir políticas cuantificadas eficientes y de alta calidad y reducir los costos de capacitación y las emisiones de carbono. Según los investigadores de Google, hacer que la capacitación de RL sea sostenible será esencial para la adopción, dados los avances continuos realizados por RL en la resolución de problemas. Con el fin de lograr una formación eficaz y responsable con el medio ambiente, esperan que su trabajo se considere un trampolín en la aplicación de la cuantificación a la formación RL. El trabajo futuro del equipo planea considerar el uso de técnicas de compresión y cuantización más agresivas, lo que podría aumentar la compensación de rendimiento y precisión que ya han logrado las estrategias de RL entrenadas.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘QuaRL: Quantization for Fast and Environmentally Sotainable Reinforcement Learning’. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y artículo de referencia.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools