Estás leyendo la publicación: Amazon Research presenta MTGenEval: un nuevo punto de referencia para evaluar el sesgo de género en la traducción automática
Ha sido un objetivo de larga data del campo de la informática desarrollar software capaz de traducir texto escrito entre idiomas. La última década ha visto surgir la traducción automática como una herramienta de productividad práctica y ampliamente utilizada. A medida que crece su popularidad, se vuelve más crucial verificar que sean objetivos, justos y veraces.
Es un desafío evaluar la efectividad de los sistemas en términos de género y calidad porque los puntos de referencia existentes carecen de variación en los fenómenos de género (p. ej., centrarse en profesiones), estructura de oraciones (p. ej., utilizar plantillas para generar oraciones) o cobertura de idioma.
Con este propósito, un nuevo trabajo de Amazon presenta MTGenEval, un nuevo punto de referencia para evaluar el sesgo de género en la traducción automática. El conjunto de evaluación de MT-GenEval es completo y realista, y admite la traducción del inglés a ocho idiomas ampliamente hablados (pero a veces poco estudiados): árabe, francés, alemán, hindi, italiano, portugués, ruso y español. El punto de referencia proporciona 2400 frases paralelas para capacitación y desarrollo y 1150 segmentos de datos de evaluación por par de idiomas.
MTGenEval está bien equilibrado gracias a la inclusión de contrafactuales de género creados por humanos, que le dan realismo y diversidad, además de una amplia gama de escenarios para la desambiguación.
Generalmente, los conjuntos de prueba se generan artificialmente, lo que incluye fuertes sesgos. Por el contrario, los datos de MT-GenEval se basan en datos del mundo real recopilados de Wikipedia y contienen traducciones de referencia realizadas por profesionales en cada idioma.
Aprender cómo se expresa el género en varios idiomas puede ayudar a detectar áreas comunes donde fallan las traducciones. Es cierto que algunos términos en inglés, como “she” (mujer) o “hermano”, no tienen lugar para la ambigüedad cuando se trata de describir su género (género masculino). Los sustantivos, adjetivos, verbos y otras partes del discurso se pueden marcar por género en muchos idiomas, incluidos los incluidos en MT-GenEval.
Un modelo de traducción automática no solo debe traducir sino también expresar con precisión los géneros de las palabras que carecen de género en la entrada al traducir de un idioma sin género o con género restringido (como el inglés) a un idioma con género gramatical extenso (como el español).
Sin embargo, en la práctica, los textos de entrada rara vez son tan sencillos, y el término que elimina la ambigüedad del género de una persona puede ser bastante distante, quizás incluso en una frase diferente, de las palabras que representan el género en la traducción. Descubrimos que los modelos de traducción automática son propensos a confiar en ideas preconcebidas de género (como traducir “hermoso” como mujer y “hermoso” como hombre, independientemente del contexto) cuando se enfrentan a la ambigüedad en estas situaciones.
Incluso si ha habido incidentes aislados en los que las traducciones no han podido reflejar con precisión el género previsto, hasta ahora no ha habido forma de evaluar estadísticamente estos casos en texto de entrada real y complicado.
Los investigadores buscaron en artículos de Wikipedia en inglés segmentos de texto candidatos que incluyeran al menos una palabra de género dentro de un rango de tres oraciones. Para garantizar que los segmentos fueran útiles para medir la precisión del género, los anotadores humanos eliminaron las oraciones que no se referían específicamente a personas.
Luego, los anotadores produjeron contrafactuales para los segmentos en los que el género de los participantes se cambió de mujer a hombre o de hombre a mujer para garantizar la paridad de género en el conjunto de prueba.
Cada segmento en el conjunto de prueba tiene tanto una traducción correcta con los géneros correctos como una traducción contrastiva, que difiere de la traducción correcta únicamente en los términos que son específicos del género, lo que permite evaluar la precisión de la traducción del género. Este estudio presenta una métrica simple de precisión, que implica considerar todas las palabras con género en la referencia de contraste para una traducción dada con el género deseado. La traducción se indica como inexacta si incluye alguna de las palabras de género de la referencia contrastiva y como correcta en caso contrario. Su hallazgo muestra que su métrica automática coincidió razonablemente con la de los anotadores humanos con puntajes F superiores al 80% en cada uno de los ocho idiomas de destino.
Además de esta evaluación lingüística, el equipo también desarrolló una métrica para comparar la calidad de la traducción automática entre los productos masculinos y femeninos. Esta disparidad de género en la calidad se mide comparando las puntuaciones BLEU de muestras masculinas y femeninas del mismo conjunto de datos equilibrado.
MT-GenEval es una mejora significativa con respecto a los métodos anteriores para evaluar la fidelidad de género de la traducción automática gracias a su curación y anotación sustanciales. El equipo espera que su trabajo anime a otros académicos a centrarse en aumentar la precisión de la traducción de género para entradas complicadas del mundo real en varios idiomas.