Estás leyendo la publicación: Investigadores de Microsoft proponen un nuevo método de IA que utiliza modelos de lenguaje hacia adelante y hacia atrás para encontrarse en el medio y mejorar la capacitación…
Los modelos de lenguaje (LM) se han utilizado ampliamente para diversas actividades de escritura asistida, que incluyen resúmenes de texto, finalización de código y paráfrasis. Los LM son herramientas eficaces para crear lenguajes naturales y de programación. La mayoría de los LM deben poder desarrollar el siguiente token a partir de la secuencia de tokens anteriores para que sea útil en una amplia gama de aplicaciones. Debido a la importancia de esta operación, el preentrenamiento se ha concentrado en mejorar la perplejidad del modelo para predecir el siguiente token dado el último token. Sin embargo, tienen información extra que no están usando durante el entrenamiento previo.
Por ejemplo, ignoran por completo los siguientes tokens mientras entrenan al modelo para predecir un token y solo condicionan el prefijo (tokens anteriores) (sufijo). Existen enfoques alternativos para incluir el sufijo en el preentrenamiento que aún no se han discutido en la literatura, aunque no se puede utilizar como entrada al modelo. Quieren aumentar la utilidad de los datos de preentrenamiento mientras mantienen las propiedades autorregresivas del LM subyacente. Su estrategia requiere más modelado, lo que a primera vista podría parecer inútil. Después de todo, un LM autorregresivo de izquierda a derecha es un artefacto principal creado durante el preentrenamiento, y el objetivo del preentrenamiento se parece mucho a cómo se usa el LM.
Sin embargo, hay dos razones para explorar diferentes objetivos de formación. La eficiencia de los datos se analiza en el primero. El LM se entrena utilizando una señal escasa y económica que genera una distribución de probabilidad sobre todas las selecciones potenciales del siguiente token. Sin embargo, solo se supervisa utilizando el siguiente token real del conjunto de entrenamiento. ¿Qué pasaría si se usara un tipo de supervisión más intenso durante el entrenamiento, donde la distribución de probabilidad para los siguientes tokens se comparara con una distribución de probabilidad diferente? La segunda justificación se relaciona con otras responsabilidades conexas. Por ejemplo, el usuario puede preferir completar o editar una secuencia existente de tokens en muchas configuraciones del mundo real en lugar de crear texto completamente desde cero.
Un escritor puede desear incluir una oración o dos para fortalecer la coherencia de un párrafo, por ejemplo, o un programador puede querer agregar un nuevo parámetro a una función. Un LM de izquierda a derecha no puede usar el contexto de ambos lados de la ubicación de inserción en estas situaciones, lo que podría conducir a resultados insatisfactorios. También podemos crear un método de relleno de vanguardia utilizando el modelado adicional que realizan durante el entrenamiento. Para abordar tanto el preentrenamiento como el relleno, los investigadores de Microsoft sugieren un paradigma combinado de preentrenamiento e inferencia que denominan “Meet in the Middle” (MIM) en este estudio. MIM utiliza dos conceptos clave. La primera sugerencia es construir un segundo modelo de idioma que lea los tokens de izquierda a derecha y luego usar los dos modelos para co-regularizarse entre sí. Al hacerlo, cada LM puede beneficiarse del contexto que proporciona el otro LM, lo que aumenta la eficacia y la coherencia de los datos.
El segundo concepto es un proceso de inferencia directo y eficiente para el relleno que utiliza todos los artefactos previos al entrenamiento, incluidos los modelos de lenguaje y su propensión a estar de acuerdo. En este caso, los dos modelos se “encontrarán físicamente en el medio” al crear uno completo de cada lado. Los modelos en sentido figurado “se encuentran en el medio” al cambiar sus probabilidades de salida para apoyar el punto de vista opuesto. Su regularizador de acuerdos ofrece dos ventajas clave: regulariza y mejora la consistencia de los dos modelos lingüísticos y ayuda a la terminación anticipada del proceso de generación durante el trabajo de relleno al identificar el punto en el que los dos modelos convergen en el mismo token.
En otras palabras, implementan una única arquitectura compartida de solo decodificador con dos procesos de decodificación para entrenar MIM. Los dos LM producen tokens en direcciones opuestas. La dirección de avance predice el siguiente token dado el prefijo y los tokens que genera. Dado el sufijo y los tokens que produce, la dirección inversa indica el último token. Usan una combinación del regularizador de acuerdo y la pérdida de modelado de lenguaje convencional para pre-entrenar juntos a los dos modelos en un corpus de texto considerable. Realizan ensayos para evaluar la eficacia de MIM para el entrenamiento previo de LM en varios dominios y tareas. Cuando finaliza el preentrenamiento, el modelo directo se puede usar como un reemplazo directo para los LM autorregresivos actuales. Puede desechar el modelo inverso o utilizarlo para tareas relacionadas, como el relleno.
Ellos pre-entrenan LMs de varios tamaños usando lenguaje y datos de código público, y luego evalúan qué tan bien se desempeñan usando pruebas de perplejidad y finalización de código. Demuestran que MIM los supera en términos de confusión, así como en métricas de evaluación de tareas específicas al contrastarlo con FIM y otras líneas de base, así como con diferentes líneas de base. También realizan estudios de ablación para demostrar el éxito de sus sugerencias clave durante el entrenamiento y la inferencia.
En resumen, sus principales contribuciones son:
• Desarrollan un paradigma de preentrenamiento novedoso para los LM que mantiene el carácter autorregresivo de los LM mientras usa mejor los datos de entrenamiento utilizando tanto el prefijo como el sufijo. Entrenan tanto a un modelo hacia adelante como hacia atrás para hacer esto, y los empujan hacia un acuerdo.
• Para el trabajo de relleno, proporcione un proceso de inferencia rápido y eficaz que utilice el contexto de ambos lados y la probabilidad de que los modelos hacia adelante y hacia atrás coincidan. Su método ofrece mayor calidad y latencia que los de última generación y puede emplear el paralelismo de manera más eficiente que los métodos de relleno actuales.
• Use MIM para entrenar previamente modelos de lenguaje de varios tamaños usando código disponible públicamente y datos lingüísticos, evalúelos usando lenguajes humanos y de programación, y demuestre que MIM supera varias líneas base en criterios de evaluación comunes. En última instancia, se hacen públicos algunos modelos y fragmentos de código.