Investigadores de la Universidad de Zúrich desarrollan SwissBERT: un modelo lingüístico multilingüe para los cuatro idiomas nacionales de Suiza

Estás leyendo la publicación: Investigadores de la Universidad de Zúrich desarrollan SwissBERT: un modelo lingüístico multilingüe para los cuatro idiomas nacionales de Suiza

El famoso modelo BERT ha sido recientemente uno de los principales modelos de lenguaje para el procesamiento del lenguaje natural. El modelo de lenguaje es adecuado para una serie de tareas de NLP, las que transforman la secuencia de entrada en una secuencia de salida. BERT (Representaciones de codificador bidireccional de transformadores) utiliza un mecanismo de atención de transformador. Un mecanismo de atención aprende relaciones contextuales entre palabras o subpalabras en un corpus textual. El modelo de lenguaje BERT es uno de los ejemplos más destacados de los avances de la PNL y utiliza técnicas de aprendizaje autosupervisado.

Antes de desarrollar el modelo BERT, un modelo de lenguaje analizó la secuencia de texto en el momento del entrenamiento de izquierda a derecha o de izquierda a derecha y de derecha a izquierda combinados. Este enfoque unidireccional funcionó bien para generar oraciones mediante la predicción de la siguiente palabra, adjuntando eso a la secuencia, seguido de la predicción de la siguiente palabra hasta que se obtiene una oración significativa completa. Con BERT, se introdujo el entrenamiento bidireccional, lo que proporcionó un sentido más profundo del contexto y el flujo del lenguaje en comparación con los modelos de lenguaje anteriores.

El modelo BERT original se lanzó para el idioma inglés. Seguido de eso, se desarrollaron otros modelos de lenguaje como CamemBERT para francés y GilBERTo para italiano. Recientemente, un equipo de investigadores de la Universidad de Zúrich ha desarrollado un modelo lingüístico multilingüe para Suiza. Llamado SwissBERT, este modelo ha sido entrenado en más de 21 millones de artículos de noticias suizos en alemán estándar suizo, francés, italiano y romanche grischun con un total de 12 mil millones de tokens.

🔥 Recomendado:  ¿Qué es el costo por mil (CPM) y qué es la oferta de CPM?

SwissBERT se introdujo para superar los desafíos que enfrentan los investigadores en Suiza debido a la incapacidad de realizar tareas multilingües. Suiza tiene principalmente cuatro idiomas oficiales: alemán, francés, italiano y romanche, y los modelos de idiomas individuales para cada idioma en particular son difíciles de combinar para realizar tareas multilingües. Además, no existe un modelo de lenguaje neuronal separado para el cuarto idioma nacional, el romanche. Dado que la implementación de tareas multilingües es algo difícil en el campo de la PNL, no había un modelo unificado para el idioma nacional suizo antes de SwissBERT. SwissBERT supera este desafío simplemente combinando artículos en estos idiomas y creando representaciones multilingües mediante la explotación implícita de entidades y eventos comunes en las noticias.

El modelo SwissBERT se ha remodelado a partir de un transformador modular multilingüe (X-MOD) que se entrenó previamente en 81 idiomas. Los investigadores han adaptado un transformador X-MOD preentrenado a su corpus entrenando adaptadores de idioma personalizados. Han creado un vocabulario de subpalabras específico de Suiza para SwissBERT, y el modelo resultante consta de la friolera de 153 millones de parámetros.

El equipo evaluó el desempeño de SwissBERT en tareas, incluido el reconocimiento de entidades nombradas en noticias contemporáneas (SwissNER) y la detección de posturas en los comentarios generados por los usuarios sobre la política suiza. SwissBERT supera las líneas de base comunes y mejora sobre XLM-R en la detección de la postura. Al evaluar las capacidades del modelo en romanche, se descubrió que SwissBERT supera con creces a los modelos que no han sido entrenados en el idioma en términos de transferencia translingüística de tiro cero y alineación de palabras y oraciones entre alemán y romanche. Sin embargo, el modelo no funcionó muy bien en el reconocimiento de entidades nombradas en noticias históricas procesadas por OCR.

🔥 Recomendado:  Estudiar ciencia de datos en Mumbai lo ayudará a capacitarse para una carrera dinámica y de rápido movimiento

Los investigadores han publicado SwissBERT con ejemplos para afinar las tareas posteriores. Este modelo parece prometedor para futuras investigaciones e incluso para fines no comerciales. Con una mayor adaptación, las tareas posteriores pueden beneficiarse del multilingüismo del modelo.