Microsoft AI presenta DeBERTa-V3: un nuevo paradigma de preentrenamiento para modelos de lenguaje basado en la combinación de DeBERTa y ELECTRA

Estás leyendo la publicación: Microsoft AI presenta DeBERTa-V3: un nuevo paradigma de preentrenamiento para modelos de lenguaje basado en la combinación de DeBERTa y ELECTRA

El procesamiento del lenguaje natural (NLP) y la comprensión del lenguaje natural (NLU) han sido dos de los objetivos principales en el campo de la inteligencia artificial. Con la introducción de los modelos de lenguaje grande (LLM), ha habido mucho progreso y avances en estos dominios. Estos modelos de lenguaje neuronal preentrenados pertenecen a la familia de IA generativa y están estableciendo nuevos puntos de referencia como la comprensión del lenguaje, la generación de datos textuales y la respuesta a preguntas imitando a los humanos.

El famoso modelo BERT (Representaciones de codificador bidireccional de transformadores), que puede presentar resultados de última generación en una amplia gama de tareas de NLP, fue improvisado por una nueva arquitectura de modelo el año anterior. Este modelo, llamado DeBERTa (BERT mejorado con decodificación con atención desenredada), lanzado por Microsoft Research, improvisó los modelos BERT y RoBERTa utilizando dos técnicas novedosas. El primero es el mecanismo de atención desenredado en el que cada palabra se caracteriza mediante dos vectores separados: uno que codifica su contenido y otro que codifica su posición. Esto permite que el modelo capture mejor las relaciones entre las palabras y sus posiciones en una oración. La segunda técnica es un decodificador de máscara mejorado que reemplaza la capa de salida SoftMax para predecir los tokens enmascarados para el entrenamiento previo del modelo.

Ahora viene una versión mejorada del modelo DeBERTa llamada DeBERTaV3. Esta versión de código abierto mejora el modelo DeBERTa original con una tarea de preentrenamiento mejor y más eficiente en la muestra. DeBERTaV3, en comparación con las versiones anteriores, tiene nuevas funciones que mejoran la comprensión del lenguaje y el seguimiento del orden de las palabras en una oración. Utiliza un método llamado “autoatención” para ver todas las palabras en una oración y encontrar el contexto de cada palabra en función de las palabras que la rodean.

🔥 Recomendado:  Cómo realizar una auditoría de anuncios de Google en 5 pasos eficientes

DeBERTaV3 mejora el modelo original probando dos formas. Primero, reemplazando el modelado de lenguaje de máscara (MLM) con detección de token reemplazado (RTD), lo que ayuda al programa a aprender mejor. En segundo lugar, crear un nuevo método para compartir información en el programa que lo haga funcionar mejor. Los investigadores descubrieron que compartir información a la antigua usanza en realidad hacía que el programa funcionara peor porque diferentes partes del programa intentaban aprender cosas diferentes. La técnica llamada uso compartido de incrustaciones de vainilla utilizada en otro modelo de lenguaje llamado ELECTRA redujo la eficiencia y el rendimiento del modelo. Eso hizo que los investigadores desarrollaran una nueva forma de compartir información que hizo que el programa funcionara mejor. Este nuevo método, llamado uso compartido de incrustaciones desenredadas en gradiente, mejora tanto la eficiencia como la calidad del modelo preentrenado.

Los investigadores entrenaron tres versiones de modelos DeBERTaV3 y las probaron en diferentes tareas de NLU. Estos modelos superaron a los anteriores en varios puntos de referencia. DeBERTaV3[large] obtuvo una puntuación más alta en el índice de referencia GLUE en un 1,37 %, DeBERTaV3[base] se desempeñó mejor en MNLI-matched y SQuAD v2.0 en un 1,8% y 2,2%, respectivamente, y DeBERTaV3[small] superó en MNLI-matched y SQuAD v2.0 en más del 1,2% en precisión y 1,3% en F1, respectivamente.

DeBERTaV3 es definitivamente un avance significativo en el campo de la PNL con una amplia gama de casos de uso. También es capaz de procesar hasta 4096 tokens en un solo paso. Este recuento es exponencialmente más alto que modelos como BERT y GPT-3. Esto hace que DeBERTaV3 sea útil para documentos extensos que requieren grandes volúmenes de texto para ser procesados ​​o analizados. En consecuencia, todas las comparaciones muestran que los modelos DeBERTaV3 son eficientes y han sentado una base sólida para futuras investigaciones sobre la comprensión del lenguaje.