Conozca mmT5: un modelo modular multilingüe de secuencia a secuencia que supera a mT5

Estás leyendo la publicación: Conozca mmT5: un modelo modular multilingüe de secuencia a secuencia que supera a mT5

Los modelos preentrenados que hablan muchos idiomas se han desempeñado de manera excelente en los desafíos de interpretación del lenguaje natural. A menudo se utilizan grandes volúmenes de datos sin etiquetar en cientos de idiomas para entrenar estos modelos. A pesar de estar pre-entrenados principalmente en datos en inglés, los modelos lingüísticos enormes recientes tienen habilidades multilingües notables. Todos estos modelos, sin embargo, tienen una cosa en común: solo pueden contener tantas representaciones de diferentes idiomas. Como resultado, los modelos funcionan mal en idiomas con menos datos de entrenamiento previo y más idiomas de entrenamiento previo. La “maldición del multilingüismo” es otro nombre para esto.

Para los modelos multilingües existentes, las tareas de producción de lenguaje natural brindan problemas adicionales, ya que pueden sobreajustar los idiomas de entrenamiento y olvidar parcialmente su habilidad de generación en el idioma de destino, lo que da como resultado un texto que tiene el significado correcto pero que debe escribirse correctamente. El “problema de la alucinación del idioma de origen” es cómo describen esto. Los investigadores de Google DeepMind sugieren el T5 modular multilingüe, el primer modelo generativo modular multilingüe, para superar estos dos inconvenientes. Para aumentar la capacidad de modelado multilingüe, mmT5 asigna una cantidad modesta de parámetros específicos del idioma durante el entrenamiento previo.

Al congelar los módulos específicos del idioma durante el ajuste fino y el ajuste de los parámetros comunes, permiten la adaptación directa a un idioma de destino al cambiar al módulo específico del idioma apropiado. También señalan otra área de mejora con mmT5: las representaciones compartidas ajustadas podrían divergir de las representaciones modulares congeladas del decodificador. Por lo tanto, el enfoque modular es muy parecido a sus equivalentes no modulares, propensos a producir contenido en el idioma incorrecto. Sugieren congelar una parte de los parámetros comunes del decodificador para ayudar con esto, lo que hace una diferencia significativa en la generación multilingüe de tiro cero para modelos generativos modulares.

🔥 Recomendado:  Los 22 mejores sitios de encuestas para ganar dinero en 2023

Descubren que el modelo mmT5 aborda eficazmente los dos inconvenientes de los modelos multilingües de secuencia a secuencia: 1) Al permitir agregar más capacidad de modelo a varios idiomas durante el entrenamiento previo, mmT5 alivia la maldición del multilingüismo. En una colección típica de tareas de NLU y NLG multilingües, supera las líneas de base convencionales y mT5 con los mismos tamaños de parámetros; además, mmT5 aborda de manera impresionante el problema de las alucinaciones en el idioma de origen en la producción de texto multilingüe de tiro cero. Según su investigación, para un trabajo de resumen multilingüe de tiro cero, mT5 solo produce texto en el idioma de destino el 7 % de las veces, pero mmT5 hace que el texto esté en el idioma correcto en el 99 % de los casos.

Se ha sugerido un modelo de codificador-decodificador multilingüe modular llamado mmT5. La mayor parte de los parámetros mmT5 utilizados durante el entrenamiento previo multilingüe se comparten entre tareas, pero cada idioma también recibe una cantidad limitada de parámetros que son exclusivos de ese idioma. Demostraron que agregar modularidad como un sesgo inductivo arquitectónico aumenta en gran medida la eficiencia del entrenamiento, logrando la misma perplejidad que un modelo comparable completamente denso en una cuarta parte de los pasos de actualización. En una amplia gama de tareas, incluidas la respuesta a preguntas, el análisis semántico, el resumen y la clasificación, tanto en contextos multilingües como de tiro cero, mmT5 supera significativamente a los modelos comparables.

Finalmente, demuestran que el modelo produce texto de manera confiable en el idioma de destino mientras ajusta mmT5 en una tarea de destino en un idioma de origen al congelar ciertas regiones del decodificador. Por lo tanto, la modularidad elimina las alucinaciones del idioma de origen en los casos de transmisión entre idiomas.