Estás leyendo la publicación: Google AI presenta Universal Speech Model (USM): una familia de modelos de voz de última generación con parámetros 2B entrenados en 12 millones de horas de voz y…
El aprendizaje autosupervisado ha logrado avances significativos recientemente, marcando el comienzo de una nueva era para el reconocimiento de voz.
A diferencia de estudios anteriores, que se concentraron principalmente en mejorar la calidad de los modelos monolingües para idiomas ampliamente utilizados, los modelos “universales” se han vuelto más frecuentes en investigaciones más recientes. Este podría ser un modelo único que sobresalga en muchos trabajos, cubra muchas otras áreas o admita muchos idiomas. El artículo destaca los límites de la extensión del lenguaje.
Un modelo de voz universal es un modelo de aprendizaje automático entrenado para reconocer y comprender el lenguaje hablado en diferentes idiomas y acentos. Está diseñado para procesar y analizar grandes cantidades de datos de voz. Se puede utilizar en diversas aplicaciones, como reconocimiento de voz, procesamiento de lenguaje natural y síntesis de voz.
Un ejemplo famoso de un modelo de voz universal es el modelo Deep Speech desarrollado por Mozilla, que utiliza técnicas de aprendizaje profundo para procesar datos de voz y convertirlos en texto. Este modelo ha sido entrenado en grandes conjuntos de datos de voz de varios idiomas y acentos y puede reconocer y transcribir el lenguaje hablado con gran precisión.
Los modelos de voz universales son esenciales porque permiten que las máquinas interactúen con los humanos de manera más natural e intuitiva y pueden ayudar a cerrar la brecha entre diferentes idiomas y culturas. Tienen muchas aplicaciones potenciales, desde asistentes virtuales y dispositivos controlados por voz hasta transcripción de voz a texto y traducción de idiomas.
Para aumentar la inclusión de miles de millones de personas en todo el mundo, Google presentó la Iniciativa de los 1000 idiomas, un plan ambicioso para desarrollar un modelo de aprendizaje automático (ML) que admita los 1000 idiomas principales del mundo. Un problema importante es cómo admitir idiomas con relativamente pocos hablantes o pocos datos disponibles porque menos de veinte millones de personas hablan algunos de estos idiomas. Para implementar esto, el equipo realizó ASR (reconocimiento automático de voz) en los datos. Sin embargo, hay dos grandes problemas que enfrenta el equipo.
- La escalabilidad es un problema con los sistemas tradicionales de aprendizaje supervisado.
- Otra área de mejora es que mientras el equipo aumenta la cobertura y la calidad del idioma, los modelos deben avanzar computacionalmente de manera eficiente. Esto requiere un algoritmo de aprendizaje flexible, eficaz y generalizable.
La arquitectura típica de codificador-decodificador utilizada por USM puede incluir un decodificador CTC, RNN-T o LAS como decodificador. USM emplea el Conformador, un transformador de convolución aumentada, como codificador. El bloque Conformador, que incluye módulos de atención, feed-forward y convolucional, es la parte central del conformador. El espectrograma log-mel de la señal de voz se utiliza como entrada. A continuación, se utiliza el submuestreo convolucional para crear las incrustaciones finales, obtenidas mediante la aplicación de una serie de bloques Conformador y una capa de proyección.
El proceso de formación comienza con una etapa de aprendizaje no supervisado sobre audio de voz que incluye cientos de idiomas diferentes. La calidad del modelo y la cobertura del idioma se pueden aumentar con una etapa de preentrenamiento adicional utilizando datos de texto en el segundo paso opcional. Si se puede acceder a los datos de texto, determinará si se debe incluir el segundo paso. Con este segundo paso opcional, USM funciona mejor. Con un mínimo de datos supervisados, la etapa final de la canalización de capacitación implica el ajuste fino de las tareas posteriores (como el reconocimiento automático de voz o la traducción automática de voz).
A través del entrenamiento previo, el codificador incorpora más de 300 idiomas. La eficiencia del codificador preentrenado se muestra ajustando los datos de voz multilingües de YouTube Caption. Menos de tres mil horas de datos están presentes en cada idioma en los 73 idiomas incluidos en los datos supervisados de YouTube. A pesar de los datos entrenados mínimos, el modelo logra un punto de referencia sin precedentes de una tasa de error de palabra promedio (WER; cuanto más bajo, mejor) de menos del 30 % en los 73 idiomas.
La creación de USM es esencial para lograr el objetivo de Google de organizar y facilitar el acceso global a la información. Los científicos creen que la arquitectura del modelo base y el proceso de capacitación de USM proporcionan un marco que se puede desarrollar para extender el modelado del habla a los 1000 idiomas posteriores.