Microsoft AI lanza NTREX-128: un nuevo conjunto de datos para la evaluación de la traducción automática (MT) del inglés a un total de 128 idiomas de destino

Estás leyendo la publicación: Microsoft AI lanza NTREX-128: un nuevo conjunto de datos para la evaluación de la traducción automática (MT) del inglés a un total de 128 idiomas de destino

La traducción automática neuronal multilingüe (MNMT) reduce los costos de implementación al permitir que un solo sistema traduzca oraciones entre varios idiomas de origen y de destino.

Para medir la eficacia de los modelos desarrollados para MNMT masivo, se necesita acceso a una gran cantidad de datos. Debido al alto costo de producir dichos materiales, hay escasez de datos de prueba. Esto es especialmente cierto cuando se tienen en cuenta conjuntos de prueba para más de 100 idiomas. Este es un obstáculo para el desarrollo de tales modelos.

Si bien ya existen ciertos conjuntos de pruebas de referencia multilingües, se necesita información adicional para avanzar en el campo.

Una nueva investigación de Microsoft presenta NTREX-128, un conjunto de datos que contiene “Referencias de texto de noticias del inglés a X idiomas”. Este trabajo ha impulsado significativamente las pruebas multilingües de inglés en 128 idiomas de destino. Los 123 documentos (1997 frases, 42k palabras) que componen el benchmark NTREX-128 fueron traducidos del inglés a 128 idiomas. Los datos presentados son una réplica de los datos de prueba del WMT19 y son totalmente compatibles con SacreBLEU.

El equipo ha abierto su trabajo para que sirva como un nuevo estándar contra el cual se pueden juzgar los modelos de traducción automática masivamente multilingües.

Para generar este conjunto de datos, el equipo distribuyó el conjunto de prueba WMT19 original en inglés a traductores humanos expertos. Ellos creían que la calidad de los datos de prueba debe ser suficiente para que sea de alguna utilidad. Por lo tanto, se centraron principalmente en dos criterios:

  1. Las traducciones de referencia no deben crearse a partir de resultados de traducción automática editados posteriormente.
  2. Se requieren traducciones realizadas por hablantes nativos del idioma de destino correspondiente que también dominen el inglés.
🔥 Recomendado:  El CRM para Google Workspace que impulsa su marketing en línea

Antes de entregar los archivos del conjunto de prueba, el proveedor de traducción ejecutó el control de calidad como parte de su proceso de traducción. Utilizaron la implementación de la evaluación directa basada en la fuente (src-DA) del marco Appraise para distribuir los archivos para su revisión humana después de recibirlos. Contrataron a una empresa externa para que se encargara de la anotación para que pudiéramos estar seguros de que no había ningún prejuicio involucrado.

En última instancia, obtienen puntajes de calidad a nivel de segmento a partir de los juicios de anotadores bilingües que dominan tanto el idioma de origen como el de destino. La ‘calidad de la transferencia semántica’ del idioma de origen al de destino se expresa como una puntuación de 0 a 100. Aunque esto compromete la fluidez por un mayor énfasis en la suficiencia, está bien a la luz de investigaciones recientes.

El éxito reciente de las métricas de evaluación automáticas basadas en incrustaciones como COMET motivó a los investigadores a experimentar con el conjunto de datos NTREX-128, comparando las puntuaciones de COMET-src para la dirección de traducción auténtica con las puntuaciones producidas en la dirección inversa. También consideraron los src de rendimiento de COMET en idiomas no entrenados como una preocupación adicional.

Sus resultados sugieren que aunque COMET-src se puede utilizar para la estimación de la calidad de los datos de prueba, su aplicabilidad está limitada por los siguientes problemas:

  1. Para una minoría considerable de pares de idiomas, las puntuaciones de COMET-src en la entrada traducida son más altas que los datos de origen auténticos correspondientes.
  2. Si bien las comparaciones relativas de puntajes de COMET-src funcionan para todos los pares de idiomas, existe una minoría de idiomas para los cuales los puntajes aparecen rotos. El hecho de que COMET nunca haya encontrado muestras de datos de entrenamiento para estos idiomas es una posible explicación para esto.