Estás leyendo la publicación: ¿Por qué Adam Optimizer no debería ser el algoritmo de aprendizaje predeterminado? – Hacia la IA
Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.
Una proporción cada vez mayor de profesionales del aprendizaje profundo está entrenando sus modelos con métodos de gradiente adaptativo debido a su rápido tiempo de entrenamiento. Adam, en particular, se ha convertido en el algoritmo predeterminado utilizado en muchos marcos de aprendizaje profundo. A pesar de los resultados de entrenamiento superiores, se sabe que Adam y otros métodos de optimización adaptativa generalizan mal en comparación con el descenso de gradiente estocástico (SGD). Estos métodos tienden a funcionar bien en los datos de entrenamiento, pero SGD los supera en los datos de prueba.
Últimamente, muchos investigadores han escrito estudios empíricos para reflexionar sobre el valor marginal de los métodos de gradiente adaptativo: Adam. Tratemos de comprender los resultados de la investigación.
¡Adán puede converger más rápido pero generalizar mal!
Para comprender completamente esta afirmación, es pertinente observar brevemente los pros y los contras de los populares algoritmos de optimización Adam y SGD.
Descenso de gradiente (vainilla) es el método más común utilizado para optimizar las redes de aprendizaje profundo. Propuesta por primera vez en la década de 1950, la técnica puede Para aprender las matemáticas y la funcionalidad del descenso de gradiente, puede leer:
Matemáticas detrás del algoritmo de descenso de gradiente
SGD es una variante del descenso de gradiente. En lugar de realizar cálculos en todo el conjunto de datos, que es redundante e ineficiente, SGD solo calcula en un pequeño subconjunto de una selección aleatoria de ejemplos de datos. SGD produce el mismo rendimiento que el descenso de gradiente regular cuando la tasa de aprendizaje es baja.
optimización de Adam Combina las ventajas de la propagación cuadrática media (RMSProp) y el algoritmo de gradiente adaptativo (AdaGrad), para calcular tasas de aprendizaje adaptativas individuales para diferentes parámetros. En lugar de adaptar las tasas de aprendizaje de parámetros en función del primer momento promedio (la media) como en RMSProp, Adam también utiliza el promedio de los segundos momentos de los gradientes (la varianza no centrada). Para aprender más sobre Adam, lea
Para resumir, Adam definitivamente converge rápidamente a un “mínimo nítido”, mientras que SGD es computacionalmente pesado, converge a un “mínimo plano”, pero funciona bien en los datos de prueba.
¿Por qué ADAM no debería ser el algoritmo predeterminado?
Artículo publicado en septiembre de 2019, investiga los factores que conducen al bajo rendimiento de Adam mientras entrena redes neuronales complejas. Los factores clave que conducen a la débil capacidad de generalización empírica de Adam se resumen como:
- dará lugar a un pobre rendimiento de generalización de los métodos de gradientes adaptativos. SGD tiene una escala uniforme y un error de entrenamiento bajo se generalizará bien
- utilizado en Adam no puede hacer que la tasa de aprendizaje disminuya monótonamente, lo que hará que no converja a una solución óptima y surja el bajo rendimiento de generalización.
- La tasa de aprendizaje aprendida por Adam puede para la convergencia efectiva, lo que hará que no encuentre el camino correcto y converja a un punto subóptimo.
- Adán puede lo que es perjudicial para el rendimiento general del algoritmo.
La historia hasta ahora…
A pesar de los comportamientos de convergencia más rápidos, los algoritmos de gradiente adaptativo suelen tener un peor rendimiento de generalización que SGD. Específicamente, los algoritmos de gradiente adaptativo a menudo muestran un progreso más rápido en la fase de entrenamiento, pero su rendimiento alcanza rápidamente una meseta en los datos de prueba. De manera diferente, SGD generalmente mejora el rendimiento del modelo lentamente, pero podría lograr un rendimiento de prueba más alto. Una explicación empírica de esta brecha de generalización es que los algoritmos de gradiente adaptativo tienden a converger en mínimos agudos cuya cuenca local tiene una gran curvatura y generalmente generaliza mal, mientras que SGD prefiere encontrar mínimos planos y, por lo tanto, generaliza mejor.
Recuerde, esto no niega la contribución de los métodos de gradiente adaptativo en el aprendizaje de parámetros en un marco de red neuronal. Más bien, justifica la experimentación con SGD y otros métodos de gradiente no adaptativo. A través de este artículo, he intentado impresionar al explorar métodos de gradientes no adaptativos en la configuración del experimento ML. Establecer ciegamente a Adam como el algoritmo predeterminado puede no ser el mejor enfoque.
Si has leído hasta este punto, te agradezco tu paciencia y espero que este artículo haya sido una introducción a tu conocimiento y estés recuperando algo de valor. Dime qué piensas sobre esto.
Referencias:
¿Por qué Adam Optimizer no debería ser el algoritmo de aprendizaje predeterminado? se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.
Publicado a través de Hacia la IA