Estás leyendo la publicación: Investigadores diseñan un método para permutar unidades modelo cuya transformación produce un conjunto de pesos funcionalmente comparable en una cuenca aproximadamente convexa alrededor del…
El éxito del aprendizaje profundo se debe a su capacidad para abordar algunos problemas de optimización no convexos enormes con relativa simplicidad. A pesar de que la optimización no convexa es NP-hard, los algoritmos simples y las versiones genéricas del descenso de gradiente estocástico funcionan sorprendentemente bien al adaptarse a redes neuronales masivas en la realidad. Después de tener en cuenta todas las simetrías de permutación concebibles de unidades ocultas, concluyen que los paisajes de pérdida de redes neuronales contienen (casi) una sola cuenca. Proporcionan tres estrategias para permutar las ramas de un modelo para alinearlas con las unidades de un modelo de referencia. Esta transformación produce una colección de pesos comparables en una cuenca aproximadamente convexa cerca del modelo de referencia.
Estudian la eficacia irracional de los algoritmos de descenso de gradiente estocástico (SGD) en los problemas de optimización no convexa de alta dimensión del aprendizaje profundo. Tres preguntas los impulsan principalmente:
1. ¿Por qué SGD prospera en la optimización del paisaje de pérdida de aprendizaje profundo no convexo de alta dimensión mientras que es sustancialmente menos resistente en otras situaciones de optimización no convexa como el aprendizaje de políticas, la optimización de trayectoria y los sistemas de recomendación?
2. ¿Dónde podemos obtener todos los mínimos locales? ¿Por qué la pérdida cae de manera gradual y monótona mientras se interpola linealmente entre la inicialización y los pesos finales entrenados?
3. ¿Cómo es que dos modelos entrenados de forma independiente con diferentes inicializaciones aleatorias y ordenamiento de lotes de datos siempre brindan resultados similares? ¿Por qué sus curvas de pérdida de entrenamiento se parecen entre sí?
Ellos creen que este tercer aspecto implica la presencia de alguna(s) invariancia(s) aún no descubierta(s) en la dinámica de entrenamiento, de modo que las carreras de entrenamiento sucesivas exhiben características casi idénticas. Los investigadores descubrieron simetrías de permutación de unidades ocultas en redes neuronales. En pocas palabras, uno puede intercambiar dos unidades cualquiera de una capa oculta en una red, y la red continuará funcionando normalmente si los pesos se cambian en consecuencia. Los investigadores propusieron recientemente que estas simetrías de permutación nos permitirán vincular ubicaciones en el espacio de peso de forma lineal y sin pérdida.
La hipótesis es que la mayoría de las soluciones SGD pertenecen a un conjunto cuyos componentes se pueden permutar, por lo que no se dificulta la interpolación lineal entre dos elementos permutados cualesquiera. Estas soluciones se denominan modo lineal conectado (LMC). En este estudio, intentan descubrir qué invariancias están causando estas tres ocurrencias y el éxito fenomenal de SGD en el aprendizaje profundo. Si es correcta, la hipótesis puede ampliar significativamente su conocimiento de cómo funciona SGD en el contexto de una comprensión profunda y brindar una explicación razonable para estos tres fenómenos en particular.
Las siguientes son sus contribuciones:
1. Métodos de emparejamiento Ofrecen tres métodos únicos basados en nociones y técnicas de optimización combinatoria para alinear los pesos de dos modelos entrenados de forma independiente. Muestran hallazgos complejos para estos problemas y proporcionan técnicas de aproximación cuando es adecuado. En la tecnología actual, su enfoque más rápido reconoce permutaciones en segundos.
2. Relación con el SGD Muestran, utilizando un contraejemplo, que la conectividad de modo lineal es un aspecto emergente del entrenamiento SGD en lugar de topologías modelo. Relacionan este hallazgo con investigaciones previas sobre los sesgos implícitos de SGD.
3. Experimentos con ResNet realistas, incluido LMC de barrera cero. Estudios que utilizan MLP, CNN y ResNet entrenados en MNIST, CIFAR-10 y CIFAR-100.
Muestran los fenómenos de una sola cuenca de forma experimental en una amplia gama de arquitecturas de modelos y conjuntos de datos, incluida la primera demostración (hasta donde saben) de conexión de modo lineal de barrera cero en modelos ResNet capacitados de forma independiente en CIFAR-10 y CIFAR-100.
Además, descubren relaciones fascinantes entre la amplitud del modelo, la duración del entrenamiento y la conectividad de modo en una amplia gama de modelos y conjuntos de datos. Finalmente, exploran las limitaciones de una teoría de cuenca única y un contraejemplo a la hipótesis de conexión de modo lineal. Presentan la primera demostración de LMC de barrera cero en conjuntos de datos no triviales entre dos modelos ResNet entrenados de forma independiente. Investigan el vínculo entre LMC, el ancho del modelo y el tiempo de entrenamiento. Finalmente, demuestran la capacidad de sus enfoques para integrar modelos entrenados en conjuntos de datos separados en un modelo fusionado que supera a ambos modelos de entrada sin usar más cómputo o memoria que cualquiera de ellos.
La publicación del código de este trabajo de investigación está disponible gratuitamente en Github. Papel | Github
Ainsworth, SK, Hayase, J. y Srinivasa, S. (2022). Git Re-Basin: Merging Models modulo Permutation Symmetries. arXiv. https://doi.org/10.48550/arXiv.2209.04836
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools