Estás leyendo la publicación: Investigadores de la Universidad de Michigan desarrollan Zeus: un marco basado en el aprendizaje automático para optimizar el consumo de energía de GPU de redes neuronales profundas Capacitación de DNN
Las redes neuronales profundas (DNN) se han utilizado ampliamente en los últimos años en una variedad de dominios de aplicaciones basadas en datos, incluido el reconocimiento de voz, el procesamiento del lenguaje natural, la visión artificial y las recomendaciones personalizadas. Los modelos DNN generalmente se entrenan en grupos de GPU altamente paralelos y cada vez más potentes para manejar dicho crecimiento de manera efectiva.
Pero a medida que la informática se vuelve más popular, la demanda de energía aumenta como resultado. Por ejemplo, los 1287 megavatios-hora (MWh) necesarios para entrenar el modelo GPT-3 equivalen a 120 años de uso de electricidad de una familia estadounidense típica. La demanda de electricidad para IA está aumentando, según Meta, a pesar de una reducción en la huella de energía operativa del 28,5%. Sin embargo, la mayoría de la literatura existente sobre capacitación de DNN ignora la eficiencia energética.
Las técnicas comunes de mejora del rendimiento del entrenamiento de DNN pueden usar la energía de manera ineficiente. Por ejemplo, muchos artículos recientes recomiendan tamaños de lote más grandes para tasas de capacitación más rápidas. Sin embargo, maximizar el rendimiento bruto podría resultar en una menor eficiencia energética. De manera similar a cómo las GPU contemporáneas permiten la configuración de un límite de potencia de contribución igual, las soluciones existentes con frecuencia lo ignoran. Se analizaron cuatro generaciones de GPU NVIDIA y los resultados demuestran que ninguna de ellas es completamente proporcional a la potencia y que usar la mayor cantidad de potencia tiene rendimientos decrecientes.
Desafortunadamente, ahorrar energía no es completamente gratis. Para la precisión de un objetivo dado, existe una compensación entre el consumo de energía y el tiempo de entrenamiento; uno debe ser sacrificado mientras que el otro es optimizado. La descripción de la frontera de Pareto energía-tiempo destaca dos eventos notables. Primero, en comparación con el uso ingenuo del tamaño máximo de lote y el límite de potencia de GPU, todas las configuraciones óptimas de Pareto para un proyecto de capacitación en particular ofrecen diversos grados de reducción de energía. En segundo lugar, a medida que aumenta el tiempo de entrenamiento, con frecuencia existe una relación no lineal entre la cantidad de reducción de energía y el consumo.
Investigadores de la Universidad de Michigan han ofrecido a Zeus como solución a este problema en una publicación. Zeus, un marco de optimización de complementos, configura automáticamente el tamaño del lote y el límite de potencia de la GPU para reducir el consumo total de energía y el tiempo de capacitación para las operaciones de capacitación de DNN. Zeus tiene en cuenta las configuraciones relacionadas con el trabajo y la GPU, a diferencia de varios estudios recientes que solo tienen en cuenta las configuraciones específicas de la GPU.
No es necesario crear perfiles fuera de línea por trabajo o entrenar modelos de predicción, lo que puede ser prohibitivamente costoso en grandes clústeres con hardware heterogéneo y cargas de trabajo variables. Zeus, por otro lado, adopta una estrategia de exploración y explotación en línea que se adapta a las características de los flujos de trabajo de capacitación de DNN. Los modelos deben volver a capacitarse periódicamente cuando ingresan nuevos datos a la canalización, lo que se manifiesta como tareas repetibles en los clústeres de producción. Zeus hace uso de este hecho para investigar automáticamente varias configuraciones, medir los beneficios o pérdidas y luego modificar sus actividades según sea necesario.
Debido a las fuentes de incertidumbre en el entrenamiento de DNN, es difícil diseñar una solución de este tipo. En primer lugar, incluso cuando se realiza el mismo trabajo en la misma GPU con la misma configuración, el gasto de energía de un trabajo de entrenamiento varía. Esto se debe a que la aleatoriedad introducida por la inicialización del modelo y la carga de datos provoca una variación en la duración del entrenamiento de extremo a extremo para lograr una calidad de modelo particular. En segundo lugar, los modelos DNN y las GPU tienen topologías variadas y propiedades energéticas distintivas.
Como resultado, los datos recopilados de los perfiles de consumo de energía fuera de línea de ciertos modelos y GPU no se generalizan. Para hacer esto, los investigadores crearon un perfilador de energía justo a tiempo (JIT) que, cuando se activa mediante una tarea de capacitación en línea, registra de manera rápida y efectiva sus propiedades energéticas. Zeus también utiliza Multi-Armed Bandit con Thompson Sampling, lo que permite al grupo capturar la naturaleza estocástica del entrenamiento de DNN y optimizarlo frente a la incertidumbre.
Los resultados de las pruebas en una variedad de cargas de trabajo, incluido el reconocimiento de voz, la clasificación de imágenes, el NLP y las tareas de recomendación, revelaron que Zeus reduce el tiempo de capacitación en un 60,6 % y el uso de energía en un 15,3 %-75,8 % en comparación con solo elegir el tamaño máximo de lote y el máximo Límite de potencia de la GPU. Zeus puede resistir con eficacia la deriva de datos y converger rápidamente en la configuración ideal. Las ventajas de Zeus también se aplican en configuraciones multi-GPU.
Conclusión
En este estudio, los investigadores de la Universidad de Michigan intentaron comprender y mejorar el uso de energía del entrenamiento DNN en GPU. Los investigadores determinaron el equilibrio entre el tiempo de entrenamiento y el uso de energía y mostraron cómo los comportamientos rutinarios pueden resultar en un desperdicio de energía. Zeus es un sistema en línea que determina la frontera de Pareto para proyectos de capacitación DNN recurrentes. Permite a los usuarios moverse a través de él ajustando automáticamente el tamaño del lote y el límite de potencia de la GPU de sus trabajos. Zeus se adapta continuamente a los cambios dinámicos de la carga de trabajo, como la deriva de datos, superando el estado del arte en términos de consumo de energía para una variedad de cargas de trabajo y seguimientos de clústeres reales. Zeus, según los investigadores, alentará a la comunidad a priorizar la energía como recurso en la mejora de DNN.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Zeus: comprender y optimizar el consumo de energía de la GPU de la formación DNN‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools