Meta AI lanza el proyecto Massively Multilingual Speech (MMS): presenta voz a texto, texto a voz y más para más de 1,000 idiomas

Estás leyendo la publicación: Meta AI lanza el proyecto Massively Multilingual Speech (MMS): presenta voz a texto, texto a voz y más para más de 1,000 idiomas

Se han realizado avances significativos en la tecnología del habla durante la última década, lo que permite su incorporación en varios artículos de consumo. Se necesitan muchos datos etiquetados, en este caso, muchos miles de horas de audio con transcripciones, para entrenar un buen modelo de aprendizaje automático para tales trabajos. Esta información solo existe en algunos idiomas. Por ejemplo, de los más de 7000 idiomas en uso hoy en día, solo unos 100 son compatibles con los algoritmos de reconocimiento de voz actuales.

Recientemente, la cantidad de datos etiquetados necesarios para construir sistemas de voz se ha reducido drásticamente debido a las representaciones de voz autosupervisadas. A pesar del progreso, los principales esfuerzos actuales aún solo cubren alrededor de 100 idiomas.

El proyecto Massively Multilingual Speech (MMS) de Facebook combina wav2vec 2.0 con un nuevo conjunto de datos que contiene datos etiquetados para más de 1100 idiomas y datos no etiquetados para casi 4000 idiomas para abordar algunos de estos obstáculos. Según sus hallazgos, los modelos Massively Multilingual Speech son superiores a los métodos más avanzados y admiten diez veces más idiomas.

Dado que los conjuntos de datos de voz más grandes disponibles solo incluyen hasta 100 idiomas, su objetivo inicial era recopilar datos de audio para cientos de idiomas. Como resultado, buscaron escritos religiosos como la Biblia, que se han traducido a muchos idiomas y cuyas traducciones se han examinado exhaustivamente para la investigación de traducción de idiomas basada en texto. Las personas se han grabado a sí mismas leyendo estas traducciones y han hecho que los archivos de audio estén disponibles en línea. Esta investigación compiló una colección de lecturas del Nuevo Testamento en más de 1100 idiomas, lo que arrojó un promedio de 32 horas de datos por idioma.

🔥 Recomendado:  10 películas en Netflix para cualquiera que odie la Navidad

Su investigación revela que los modelos propuestos funcionan de manera similar para voces masculinas y femeninas, a pesar de que estos datos son de un dominio específico y normalmente los leen hablantes masculinos. Aunque las grabaciones son religiosas, la investigación indica que esto no sesga indebidamente el modelo hacia la producción de un lenguaje más religioso. Según los investigadores, esto se debe a que emplean una estrategia de clasificación temporal conexionista, que es más limitada que los modelos de lenguaje extenso (LLM) o los modelos de secuencia a secuencia para el reconocimiento de voz.

El equipo preprocesó los datos al combinar un enfoque de alineación forzada altamente eficiente que puede manejar grabaciones de 20 minutos o más con un modelo de alineación que se entrenó con datos de más de 100 idiomas diferentes. Para eliminar información posiblemente sesgada, utilizaron numerosas iteraciones de este procedimiento más un paso de filtrado de validación cruzada basado en la precisión del modelo. Integraron la técnica de alineación en PyTorch y pusieron a disposición del público el modelo de alineación para que otros académicos puedan usarlo para generar nuevos conjuntos de datos de voz.

No hay información suficiente para entrenar modelos tradicionales de reconocimiento de voz supervisado con solo 32 horas de datos por idioma. El equipo se basó en wav2vec 2.0 para entrenar sistemas efectivos, reduciendo drásticamente la cantidad de datos etiquetados previamente requeridos. Específicamente, utilizaron más de 1400 idiomas únicos para entrenar modelos autosupervisados ​​en más de 500 000 horas de datos de voz, aproximadamente cinco veces más idiomas que cualquier esfuerzo anterior.

🔥 Recomendado:  SEO para pequeñas empresas: mejora de la visibilidad de su sitio web

Los investigadores emplearon conjuntos de datos de referencia preexistentes como FLEURS para evaluar el rendimiento de los modelos entrenados en los datos de Massively Multilingual Speech. Usando un modelo wav2vec 2.0 de parámetro 1B, entrenaron un sistema de reconocimiento de voz multilingüe en más de 1100 idiomas. El rendimiento se degrada ligeramente a medida que aumenta la cantidad de idiomas: la tasa de errores de caracteres solo aumenta aproximadamente un 0,4 % de 61 a 1107 idiomas, mientras que la cobertura de idiomas aumenta casi 18 veces.

Al comparar los datos de Massively Multilingual Speech con Whisper de OpenAI, los investigadores descubrieron que los modelos entrenados en el primero logran la mitad de la tasa de error de palabras. Al mismo tiempo, este último cubre 11 veces más idiomas. Esto ilustra que el modelo puede competir favorablemente con el reconocimiento de voz de última generación.

El equipo también usó sus conjuntos de datos y conjuntos de datos disponibles públicamente como FLEURS y CommonVoice para entrenar un modelo de identificación de idiomas (LID) para más de 4000 idiomas. Luego lo probó en el desafío FLEURS LID. Los resultados muestran que el rendimiento sigue siendo excelente incluso cuando se admiten 40 veces más idiomas. También desarrollaron sistemas de síntesis de voz para más de 1.100 idiomas. La mayoría de los algoritmos de texto a voz existentes están entrenados en conjuntos de datos de voz de un solo hablante.

El equipo prevé un mundo donde un modelo puede manejar muchas tareas de habla en todos los idiomas. Si bien entrenaron modelos individuales para cada tarea (reconocimiento, síntesis e identificación del lenguaje), creen que en el futuro, un solo modelo podrá manejar todas estas funciones y más, mejorando el rendimiento en cada área.