Una nueva tubería de reconocimiento de voz de CMU Research puede reconocer casi 2000 idiomas sin audio

Estás leyendo la publicación: Una nueva tubería de reconocimiento de voz de CMU Research puede reconocer casi 2000 idiomas sin audio

El procesamiento de voz a texto ha avanzado significativamente en los últimos años, lo que hace que las fallas ocasionales en los sistemas de reconocimiento de voz impulsados ​​​​por IA sean poco más que curiosos valores atípicos. Sin embargo, la mayoría de los modelos modernos de reconocimiento de voz dependen de datos de entrenamiento supervisados ​​considerables. La obtención de tales estadísticas es simple para idiomas populares como el inglés, el chino, etc. Sin embargo, es difícil para la mayoría de los 8000 idiomas que se hablan en todo el mundo, lenguas de bajos recursos. Un equipo de investigación de la Universidad Carnegie Mellon creó una tubería de reconocimiento de voz que no necesita audio para el idioma de destino para abordar este problema. Utilizando 10 000 expresiones de texto sin procesar del conjunto de datos de CMU Wilderness, este algoritmo ASR2K identifica 1909 idiomas sin audio para el idioma de destino y produce resultados notables de CER del 45 % y WER del 69 %. La investigación del equipo también se publicó en el artículo ‘ASR2K: Speech Recognition for Around 2000 Languages ​​Without Audio’.

El modelo solo asume que tiene acceso a conjuntos de datos de texto sin procesar o un conjunto de estadísticas de n-gramas. Tres elementos componen su línea de voz: modelos acústicos, de pronunciación y de lenguaje. Los fonemas de los idiomas de destino, incluidos los de los idiomas no vistos, se reconocen mediante el modelo acústico. En un modelo de grafema a fonema (G2P), el modelo de pronunciación pronostica la pronunciación del fonema dada una secuencia de grafema. Tanto el modelo acústico como el de pronunciación utilizan modelos multilingües sin supervisión, a diferencia del pipeline convencional. Para aplicar sus habilidades lingüísticas recién adquiridas a idiomas de bajos recursos sin supervisión, primero pueden capacitarse utilizando conjuntos de datos supervisados ​​de idiomas de altos recursos.

🔥 Recomendado:  Android Auto acaba de recibir una nueva característica muy solicitada

El conjunto de datos de texto sin procesar o las estadísticas de n-gramas se utilizan para construir el modelo de lenguaje. Se crea un gráfico léxico codificando la pronunciación aproximada de cada palabra utilizando el modelo de pronunciación. Al contar las estadísticas de n-gramas, el modelo también puede estimar un modelo de lenguaje de n-gramas tradicional gracias al conjunto de datos de texto. Posteriormente, se crea un decodificador de transductor de estado finito ponderado (WFST) utilizando este modelo de lenguaje junto con el modelo de pronunciación. El método propuesto por el equipo se aplicó luego a 1909 idiomas en Crúbadán: una colección considerable de n-gramas para idiomas en peligro de extinción.

El método se evaluó en 129 idiomas utilizando dos conjuntos de datos separados, Common Voice (34 idiomas) y CMU Wilderness (95 idiomas). Con las estadísticas de Crbadán, logró un 50 % de CER y un 74 % de WER en el conjunto de datos de Wilderness, que posteriormente se incrementaron a un 45 % de CER y un 69 % de WER al usar 10 000 expresiones de texto sin formato. El descubrimiento del equipo representa un punto de inflexión porque representa el primer intento de crear una canalización de reconocimiento de voz sin audio para decenas de miles de idiomas. El documento del equipo y el código relacionado también se publicarán en la 23ª Conferencia INTERSPEECH en Corea del Sur.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘ASR2K: reconocimiento de voz para alrededor de 2000 idiomas sin audio‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools