Que ningún idioma se quede atrás: hacia la IA

Estás leyendo la publicación: Que ningún idioma se quede atrás: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

El nuevo modelo de Meta es capaz de traducir entre 200 idiomas diferentes haciendo que Internet sea más accesible

Introducción

Los límites de mi lenguaje significan los límites de mi mundo.

Luis Wittgenstein

Siempre me encantó esta cita de Wittgenstein, que realmente explica la importancia del lenguaje en nuestra vida. Sin las palabras adecuadas, no podemos expresarnos, y tal vez con el desarrollo de la magnífica habilidad del lenguaje, la revolución cognitiva humana nunca hubiera ocurrido. Así, no estaríamos aquí escribiendo y leyendo estas palabras. No más después del nacimiento de la civilización, apareció la escritura. Además, en la novela distópica 1984, Orwell imagina al gobierno usando “Neolengua” como una forma de censura pero también como una forma de restringir el pensamiento de la gente.

Quiero permitirme algunos ejemplos para representar la importancia del lenguaje y la traducción. Una de las más divertidas es cómo la traducción errónea de la Biblia lleva a Miguel Ángel a creer que Moisés tenía cuernos. Un error más trágico durante la Segunda Guerra Mundial lleva al aliado a bombardear el monasterio de Monecassino: un mensaje alemán interceptado decía que había un ‘abad en el monasterio (“abt”) y los estadounidenses lo tradujeron como abreviatura de batallón (“Abteilung” ). O un error en la traducción del japonés influyó en los estadounidenses en la decisión de utilizar la bomba atómica. La traducción fue y es un arma política. En la antigüedad, era práctica redactar tratados internacionales en múltiples idiomas y tratar de incluir diferentes cláusulas en cada versión para su beneficio.

Como el lenguaje es tan importante, ha sido un campo activo de investigación en IA. El nuevo modelos de lenguaje como GPT3 prometen una revolución y una riqueza de nuevas herramientas. Se pueden usar para resumir texto, crear subtítulos, transcribir videos y crear aplicaciones de texto a voz. Sin embargo, todas estas posibilidades se restringen únicamente a hablar inglés. “No Language Left Behind” está destinado a quienes se quedaron atrás, manejando 200 idiomas.

🔥 Recomendado:  ChatGPT para Gmail

Traducción de la ciencia ficción a la realidad

En La Guía del autoestopista galáctico, Douglas Adams describió el pez de babel, un pequeño pez que se puede insertar en el oído y permite comprender todos los idiomas del universo. De hecho, la traducción universal alguna vez se consideró parte del dominio de la ciencia ficción.

Cuando la Segunda Guerra Mundial inició la Guerra Fría, interpretar los mensajes rusos se consideró una tarea prioritaria. los Aliados habían probado el poder de las computadoras, gracias a de gira trabajar en descifrar los códigos Enigma. Desafortunadamente, en la década de 1960 se dieron cuenta de que aún nuestro conocimiento de la lingüística y las computadoras era limitado. La traducción automática despegó nuevamente a principios de la década de 1990 cuando aprendizaje automático estadístico demostrado resultados decentes. Fue solo con el advenimiento de las redes neuronales que fueron posibles las traducciones sofisticadas, y la llegada de grandes modelos de lenguaje prometía una nueva revolución.

Clásico traducción automática neuronal Los sistemas se basan en un gran conjunto de datos compuesto por un par de oraciones (una oración en un idioma y su traducción en otro). En general, estos grandes corpus son recopilados y anotados por humanos. Si bien hay disponible un gran corpus para diferentes idiomas generalizados (por ejemplo, inglés, alemán y francés) que recibieron financiamiento institucional, se han pasado por alto muchos otros idiomas.

Meta nuevo modelo, una forma inteligente de construir el conjunto de datos

El sistema clásico es difícil de generalizar y es difícil y costoso recopilar tantos ejemplos para lenguajes más pequeños. Además, las lenguas clásicas están entrenadas para traducir de un idioma a otro y no para manejar tantos idiomas. Meta resolvió el problema del conjunto de datos, utilizando un conjunto de datos inicial para detectar el idioma automáticamente (llamado en el sistema de identificación de idioma en papel). Otro transformadorSe utilizó un modelo basado en para encontrar un par de oraciones para los datos identificados. De esta manera, construyeron el conjunto de datos de ejemplos para el modelo final.

El modelo final se llama NLLB200 (No Language Left Behind 200). El modelo final es en realidad un modelo basado en un transformador compuesto por un codificador y un decodificador (como muchos otros modelos de lenguaje). En concreto, se proporciona una secuencia de entrada al codificador y esta parte del modelo está aprendiendo una representación del contenido de la oración. El codificador proporciona esta representación para guiar al decodificador en la traducción de la oración. El modelo usó la traducción para verificar que podía traducir correctamente.

🔥 Recomendado:  Medidas de tendencia central y… – Hacia la IA

El modelo también tiene otros trucos para mejorar la traducción como Mezcla de expertos escasamente cerrada pero esencialmente, el modelo es similar a otros ya publicados, mientras que el ensamblaje del conjunto de datos es la idea central.

¿Por qué priorizar las comunidades lingüísticas de bajos recursos?

La investigación mostró que sólo aproximadamente El 25% de los internautas habla inglés mientras que el 65% de los sitios web de Internet están en inglés. Esta asombrosa diferencia lleva al hecho de que muchos recursos importantes (educativos, laborales o institucionales) no son accesibles para todos, y todo el grupo de personas es silenciado en la web. En concreto, esta falta de atención a las comunidades de bajos recursos está conduciendo a una marginación adicional de las comunidades pobres.

Además, durante las últimas décadas, hemos visto un declive de la lengua y la cultura nativas, que se debe a razones culturales (falta de libros, medios en un idioma) y económicas. La cobertura y calidad de la traducción automática existente ha pasado por alto estos idiomas, aumentando la brecha entre quién puede acceder a determinados recursos y quién no.

El primer paso del trabajo estuvo motivado por comprender el impacto de la traducción de alta calidad para cientos de idiomas. De hecho, los autores realizaron entrevistas con 44 hablantes de idiomas de bajos recursos. Esto se llevó a cabo con el objetivo de dirigir el énfasis en las consideraciones éticas y sociales. Escriben en el papel:

En general, nuestro esfuerzo de reclutamiento nos llevó a 44 hablantes nativos de idiomas de bajos recursos de diversos orígenes, con edades que oscilan entre los 23 y los 58 años. Cubriendo un total de 36 idiomas, la distribución es la siguiente: 5 idiomas se hablan predominantemente en América del Norte, 8 en América del Sur, 4 en Europa, 12 en África y 7 en Asia.

Sin embargo, como se señala en el documento, la limitación era:

Aunque nuestra muestra es amplia en términos de raza, educación y ubicación, la mayoría de nuestros participantes son inmigrantes que viven en los EE. UU. y Europa, y alrededor de un tercio de ellos (n = 17) se identifican como trabajadores tecnológicos.

🔥 Recomendado:  ¿Es la difusión todo lo que necesita? – Hacia la IA

Además, la investigación dedicó parte del trabajo a detectar elementos tóxicos en los corpus y filtrarlos.

Conclusiones

No todo el mundo habla inglés (dentro o fuera de Internet) y esto debe tenerse en cuenta al diseñar un modelo lingüístico. La importancia de un idioma va más allá del interés del investigador, un idioma también es una expresión de cultura, sociedad y creencias.

La traducción es necesaria para la difusión de información, conocimiento e ideas. Además, la calidad de la traducción tiene importantes caídas sociales y económicas. De hecho, la traducción deficiente es una barrera perjudicial para demasiadas comunidades. NLLB200 es solo el primer paso para reducir esta brecha.

Recursos

Estos son algunos de los recursos consultados para este artículo y recursos adicionales que pueden ser útiles.

  • El trabajo de investigación oficialque puede consultar para obtener detalles técnicos adicionales (tiene 190 páginas, demasiado largo para incluir en este breve artículo todos los detalles).
  • Publicaciones del blog de Meta: aquí y aquí
  • Video oficial presentando el modelo
  • El código (siempre es bueno comprobarlo!)

si te ha parecido interesante:

Puedes buscar mis otros artículos, también puedes suscribir para recibir notificaciones cuando publique artículos, y también puede conectarse o comunicarse conmigo en LinkedIn. ¡Gracias por su apoyo!

Aquí está el enlace a mi repositorio de Github donde planeo recopilar código y muchos recursos relacionados con el aprendizaje automático, la inteligencia artificial y más.

GitHub – SalvatoreRa/tutorial: Tutoriales sobre aprendizaje automático, inteligencia artificial, ciencia de datos con explicación matemática y código reutilizable (en python y R)


No Language Left Behind se publicó originalmente en Towards AI en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA