Las tareas de preentrenamiento en constante evolución para los modelos de lenguaje: hacia la IA

Estás leyendo la publicación: Las tareas de preentrenamiento en constante evolución para los modelos de lenguaje: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

El aprendizaje autosupervisado (SSL) es la columna vertebral de los modelos de lenguaje preentrenado basados ​​en transformadores, y este paradigma implica resolver tareas de preentrenamiento (PT) que ayudan a modelar el lenguaje natural. Este artículo trata de poner todas las tareas populares previas al entrenamiento de un vistazo.

Función de pérdida en SSL
La función de pérdida aquí es simplemente la suma ponderada de las pérdidas de las tareas de preentrenamiento individuales en las que se entrena el modelo.

Tomando BERT como ejemplo, la pérdida sería la suma ponderada de MLM (Modelado de lenguaje enmascarado) y NSP (Predicción de la siguiente oración)

A lo largo de los años, ha habido muchas tareas previas a la formación que han surgido para resolver problemas específicos. Estaremos revisando 10 de los interesantes y populares junto con sus correspondientes funciones de pérdida:

  1. Modelado de lenguaje causal (CLM)
  2. Modelado de lenguaje enmascarado (multinivel)
  3. Detección de token reemplazado (IDT)
  4. Detección de fichas mezcladas (ETS)
  5. Sustitución aleatoria de fichas (estrategia en tiempo real)
  6. Modelado de lenguaje intercambiado (SLM)
  7. Modelado del lenguaje de traducción (TLM)
  8. Modelado de lenguaje alternativo (ALM)
  9. Límite de la oración Objetivo (SBO)
  10. Predicción de la siguiente oración (NSP)
🔥 Recomendado:  Chrome está matando tu batería, Chatroulette para fumetas y más... [Tech News Digest]

  • Es simplemente un modelo de lenguaje unidireccional que predice la siguiente palabra dado el contexto.
  • Se utilizó como tarea previa al entrenamiento en GPT-1
  • La pérdida para CLM se define como:
  • Una mejora sobre el modelado de lenguaje causal (CLM), ya que CLM solo tiene en cuenta el contexto unidireccional al predecir el texto, mientras que MLM usa un contexto bidireccional.
  • Se utilizó por primera vez como una tarea previa al entrenamiento en BERT
  • En lugar de enmascarar fichas con [MASK]RTD reemplaza un token con un token diferente (usando un modelo de generador) y entrena el modelo para clasificar si los tokens dados son tokens reales o reemplazados (usando un modelo discriminador)
  • Mejora más de 2 de los siguientes inconvenientes de MLM:

Inconveniente 1:
[MASK] el token aparece durante el entrenamiento previo, pero no durante el ajuste fino; esto crea una falta de coincidencia entre los dos escenarios.
RTD supera esto ya que no usa ningún enmascaramiento

Inconveniente 2:
En MLM, la señal de entrenamiento solo la da el 15% de los tokens, ya que la pérdida se calcula solo con estos tokens enmascarados, pero en RTD, la señal la dan todos los tokens, ya que cada uno de ellos se clasifica para ser “reemplazado” o “original”

  • RTD se utilizó en ELECTRA como una tarea previa al entrenamiento. La arquitectura ELECTRA se muestra a continuación:
  • Similar a RTD, pero los tokens aquí se clasifican para barajarse o no, en lugar de reemplazarse o no (como se muestra a continuación)
  • Logra una eficiencia de muestra similar a la de RTD en comparación con MLM
  • La pérdida se define como:
  • RTD usa un generador para corromper la oración, lo cual es computacionalmente costoso.
    RTS pasa por alto esta complejidad simplemente sustituyendo el 15% de los tokens usando tokens del vocabulario mientras logra una precisión similar a la de MLM, como se muestra aquí.
  • SLM corrompe la secuencia reemplazando el 15% de los tokens con tokens aleatorios.
  • Es similar a MLM en términos de intentar predecir tokens corruptos, pero en lugar de usar [MASK]los tokens aleatorios se utilizan para enmascarar
  • Es similar a RTS en términos de usar tokens aleatorios para corromper, pero a diferencia de RTS, no es muy eficiente, ya que solo el 15% de los tokens se usan para proporcionar una señal de entrenamiento.
  • TLM también se conoce como MLM multilingüe, en el que la entrada es un par de oraciones paralelas (oraciones de dos idiomas diferentes) con los tokens enmascarados como en MLM
  • Fue utilizado como una tarea de pre-entrenamiento en XLMun modelo multilingüe para aprender mapas multilingües.
  • La pérdida de TLM es similar a la pérdida de MLM:
  • Es una tarea aprender un modelo de lenguaje translingüístico al igual que TLM, donde las oraciones paralelas son cambio de código, Como se muestra abajo:
🔥 Recomendado:  El mercado clandestino de cuentas de vendedor de Amazon de segunda mano se está saliendo de control

Durante el cambio de código, algunas frases de x se sustituyen por y, y la muestra así obtenida se usa para entrenar el modelo.

  • La estrategia de enmascaramiento es similar a MLM.
  • Implica enmascarar un tramo contiguo de tokens en una oración y luego usar el modelo para predecir los tokens enmascarados en función de las representaciones de salida de los tokens de límite
  • Fue utilizado como una tarea de pre-entrenamiento en SpanBERT
  • La pérdida se define como:
  • Es una tarea a nivel de oración que ayuda al modelo a aprender la relación entre las oraciones.
  • Es una tarea de clasificación binaria que implica identificar si las dos oraciones son consecutivas, utilizando la representación de salida de [CLS] simbólico.
  • El entrenamiento se realiza utilizando muestras 50% positivas y 50% negativas donde la segunda oración no es consecutiva a la primera oración.


Las tareas de preentrenamiento en constante evolución para los modelos de lenguaje se publicaron originalmente en Hacia la IA en Medium, donde las personas continúan la conversación destacando y respondiendo a esta historia.

Publicado a través de Hacia la IA