Investigadores de Stanford han desarrollado un enfoque de inteligencia artificial (IA) llamado ‘MEND’ para la edición rápida de modelos a escala

Estás leyendo la publicación: Investigadores de Stanford han desarrollado un enfoque de inteligencia artificial (IA) llamado ‘MEND’ para la edición rápida de modelos a escala

Los modelos grandes han mejorado el rendimiento en una amplia gama de problemas modernos de visión por computadora y, en particular, en el procesamiento del lenguaje natural. Sin embargo, la emisión de parches para ajustar el comportamiento del modelo después de la implementación es un desafío importante para implementar y mantener dichos modelos. Debido a la naturaleza distribuida de las representaciones del modelo, cuando una red neuronal produce una salida no deseada, es difícil realizar una actualización localizada para corregir su comportamiento para una sola o pequeña cantidad de entradas. Un modelo de lenguaje grande entrenado en 2019 podría asignar una mayor probabilidad a Theresa May que a Boris Johnson cuando se le solicite. ¿Quién es el Primer Ministro del Reino Unido?

Un procedimiento de edición de modelo ideal sería capaz de actualizar rápidamente los parámetros del modelo para aumentar la probabilidad relativa de Boris Johnson sin afectar la salida del modelo para entradas no relacionadas. Este procedimiento produciría ediciones con confiabilidad, cambiando con éxito el trabajo del modelo en la entrada problemática (por ejemplo, ¿Quién es el Primer Ministro del Reino Unido?); localidad, lo que afecta la salida del modelo para entradas no relacionadas (p. ej., ¿En qué equipo deportivo juega Messi?); y generalidad, generando la salida correcta para las entradas relacionadas con la entrada de edición (p. ej., ¿Quién es el primer ministro del Reino Unido?). Hacer tales ediciones es tan simple como ajustar con una nueva etiqueta en el único ejemplo que se va a corregir. Sin embargo, el ajuste fino en una sola muestra tiende a sobreajustarse, incluso cuando la distancia entre los parámetros de ajuste fino previo y posterior es limitada.

🔥 Recomendado:  12 tácticas para obtener más reseñas de productos y aumentar tus ventas

El sobreajuste causa fallas tanto de localidad como de generalidad. Si bien el ajuste fino del ejemplo de edición y la capacitación continua en el conjunto de capacitación mejoran la localidad, sus experimentos muestran que aún necesita más generalidad. Además, requiere acceso continuo a todo el conjunto de entrenamiento durante la prueba y es más exigente desde el punto de vista computacional. Investigaciones recientes han buscado métodos para aprender a hacer ediciones de modelos como una alternativa. Los investigadores presentan un objetivo de metaaprendizaje de dos niveles para determinar la inicialización de un modelo para el cual el ajuste fino estándar en un solo ejemplo de edición produce modificaciones valiosas.

Si bien es práctico, los requisitos computacionales para aprender una representación editable de este tipo dificultan el escalado a modelos grandes, donde más se requieren ediciones rápidas y efectivas. Los investigadores describen una alternativa basada en el aprendizaje computacionalmente eficiente, pero sus experimentos no logran editar modelos enormes. Como resultado, idean un método para producir ediciones generales, locales y confiables mientras escalan de manera eficiente a modelos con más de 10 mil millones de parámetros. Cuando se le da el gradiente de ajuste fino estándar de una corrección dada como entrada, su enfoque entrena redes de editores de modelos livianos para producir ediciones en los pesos de un modelo previamente entrenado, aprovechando el gradiente como un punto de partida rico en información para la edición.

Debido a que los gradientes son objetos tridimensionales, la parametrización directa de una función que asigna un gradiente a una nueva actualización de parámetros es prohibitivamente costosa. Una implementación ingenua de una sola matriz de peso dd requiere un mapeo R(d2) -> R(d2), que no es práctico para modelos grandes con d ~ 104. Su enfoque, sin embargo, puede aprender una función g: R(d) – > R(d) descomponiendo este gradiente en su forma de producto exterior de rango 1. Model Editor Networks with Gradient Decomposition, o MEND, es el nombre que se le da a su enfoque. MEND parametriza estas funciones de mapeo de gradientes como MLP con una sola capa oculta, con menos parámetros que los modelos que editan. Independientemente del entrenamiento previo, MEND se puede aplicar a cualquier modelo previamente entrenado.

🔥 Recomendado:  ¿Qué más si no es retropropagación? Esta investigación de IA trae una nueva perspectiva

La principal contribución de este trabajo es un algoritmo escalable para la edición rápida de modelos que puede editar enormes modelos de lenguaje previamente entrenados aprovechando la estructura de rango bajo de gradientes de ajuste fino. Llevan a cabo evaluaciones empíricas de varias tareas relacionadas con el lenguaje y modelos de transformadores, lo que demuestra que MEND es el único algoritmo capaz de editar de manera consistente los modelos de lenguaje T5 y de estilo GPT más significativos. Finalmente, sus experimentos de ablación ilustran el impacto de los componentes clave de MEND, lo que demuestra que es probable que las variantes de MEND se adapten a modelos con cientos de miles de millones de parámetros. La implementación del código está disponible gratuitamente en GitHub.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘MEND: edición rápida de modelos a escala‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, código y proyecto.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools