Estás leyendo la publicación: Google AI presenta OptFormer: el primer marco basado en transformadores para el ajuste de hiperparámetros
OpenML y otras plataformas públicas de datos de aprendizaje automático, junto con servicios de optimización de hiperparámetros (HPO) como Google Vizier, Amazon SageMaker y Microsoft Azure, han facilitado la disponibilidad de conjuntos de datos integrales con evaluaciones de hiperparámetros. La optimización de los hiperparámetros es crucial en el aprendizaje automático, ya que pueden hacer o deshacer el rendimiento de un modelo en una tarea determinada.
Existe un interés creciente en utilizar este tipo de información para meta-aprender algoritmos de optimización de hiperparámetros (HPO). Aún así, trabajar con grandes conjuntos de datos que incluyen pruebas experimentales en la naturaleza puede ser difícil debido a la amplia variedad de problemas de HPO y los metadatos de texto que los describen. En consecuencia, la mayoría de los enfoques HPO de metaaprendizaje y transferencia consideran un entorno restringido en el que todas las tareas deben compartir los mismos hiperparámetros para que los datos de entrada se puedan representar como vectores de tamaño fijo. Como resultado, los datos utilizados para aprender a priori utilizando dichos métodos son limitados. Este es un problema particularmente serio para grandes conjuntos de datos que incluyen información valiosa.
Google AI ha desarrollado OptFormer, uno de los primeros marcos basados en Transformer para el ajuste de hiperparámetros, que puede aprender de grandes cantidades de datos de optimización mediante el empleo de representaciones textuales versátiles.
Trabajos anteriores han demostrado la versatilidad del Transformer. Sin embargo, no muchas investigaciones se centraron en su potencial de optimización, particularmente en el ámbito del texto. El documento “Hacia el aprendizaje de optimizadores universales de hiperparámetros con transformadores” presenta un sistema HPO de metaaprendizaje que es el primero en aprender políticas y funciones previas a partir de datos en múltiples espacios de búsqueda simultáneamente.
A diferencia de los enfoques tradicionales, que a menudo solo usan datos numéricos, el método propuesto usa conceptos del lenguaje natural y representa todos los datos de la investigación como una serie de tokens, incluida la información textual de los metadatos originales.
El código base T5X se utiliza para entrenar el OptFormer de una manera convencional codificador-decodificador con preentrenamiento generativo estándar para varios objetivos de optimización de hiperparámetros, incluidos los datos del mundo real y el hiperparámetro público (HPO-B) de Google Vizier y puntos de referencia de optimización de caja negra (BBOB) . El OPTFORMER puede generalizar los hábitos de siete algoritmos de optimización de caja negra distintos (no adaptativo, evolutivo y bayesiano).
Según los investigadores, OptFormer puede imitar muchos algoritmos a la vez porque aprende de las rutas de optimización de numerosos algoritmos. OptFormer actuará de la misma manera que el algoritmo seleccionado si se le proporciona un mensaje de texto en los metadatos del algoritmo (como “Evolución regularizada”).
Finalmente, la optimización basada en modelos, incluidas las funciones de adquisición de Mejora Esperada, hace que las pólizas OPTFORMER sean un competidor formidable entre los métodos HPO. Según el equipo, esta es la primera vez que se agregan funciones de adquisición para la adaptación en línea a Transformers.
El OptFormer también puede estimar el grado de incertidumbre y hacer predicciones sobre el valor objetivo optimizado (como la precisión). Los investigadores compararon la predicción de OptFormer con un proceso gaussiano estándar. Los resultados demuestran que la predicción de OptFormer es mucho más precisa que un proceso gaussiano normal.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Hacia el aprendizaje de optimizadores de hiperparámetros universales con transformadores‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y artículo de referencia.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools