Los investigadores buscan expandir el reconocimiento de voz automático a 2000 idiomas

Estás leyendo la publicación: Los investigadores buscan expandir el reconocimiento de voz automático a 2000 idiomas

Un equipo de investigadores de la Universidad Carnegie Mellon está buscando expandir el reconocimiento automático de voz a 2000 idiomas. En este momento, solo una parte de los aproximadamente 7000 a 8000 idiomas hablados en todo el mundo se beneficiaría de las tecnologías lingüísticas modernas, como la transcripción de voz a texto o los subtítulos automáticos.

Xinjian Li tiene un doctorado. estudiante del Instituto de Tecnologías del Lenguaje (LTI) de la Facultad de Informática.

“Muchas personas en este mundo hablan diversos idiomas, pero no se están desarrollando herramientas tecnológicas lingüísticas para todos”, dijo. “Desarrollar tecnología y un buen modelo de lenguaje para todas las personas es uno de los objetivos de esta investigación”.

Li pertenece a un equipo de expertos que buscan simplificar los requisitos de datos que los idiomas necesitan para desarrollar un modelo de reconocimiento de voz.

El equipo también incluye a los miembros de la facultad de LTI Shinji Watanabe, Florian Metze, David Mortensen y Alan Black.

La investigación titulada “ASR2K: reconocimiento de voz para alrededor de 2000 idiomas sin audio” fue presentado en Interspeech 2022 en Corea del Sur.

La mayoría de los modelos de reconocimiento de voz existentes requieren conjuntos de datos de texto y audio. Si bien existen datos de texto para miles de idiomas, no ocurre lo mismo con el audio. El equipo quiere eliminar la necesidad de datos de audio centrándose en elementos lingüísticos que son comunes en muchos idiomas.

Las tecnologías de reconocimiento de voz normalmente se centran en los fonemas de un idioma, que son sonidos distintos que lo distinguen de otros idiomas. Estos son exclusivos de cada idioma. Al mismo tiempo, los idiomas tienen teléfonos que describen cómo suena físicamente una palabra, y varios teléfonos pueden corresponder a un solo fonema. Si bien los idiomas separados pueden tener diferentes fonemas, los teléfonos subyacentes pueden ser los mismos.

🔥 Recomendado:  6 expertos comparten su opinión sobre '¿ChatGPT reemplazará a los desarrolladores?'

El equipo está trabajando en un modelo de reconocimiento de voz que depende menos de los fonemas y más de la información sobre cómo se comparten los teléfonos entre idiomas. Esto ayuda a reducir el esfuerzo necesario para construir modelos separados para cada idioma individual. Al emparejar el modelo con un árbol filogenético, que es un diagrama que mapea las relaciones entre idiomas, ayuda con las reglas de pronunciación. El modelo del equipo y la estructura de árbol les han permitido aproximarse al modelo de voz para miles de idiomas incluso sin datos de audio.

“Estamos tratando de eliminar este requisito de datos de audio, lo que nos ayuda a pasar de 100 a 200 idiomas a 2000”, dijo Li. “Esta es la primera investigación dirigida a una cantidad tan grande de idiomas, y somos el primer equipo que tiene como objetivo expandir las herramientas lingüísticas a este alcance”.

La investigación, aunque aún se encuentra en una etapa inicial, ha mejorado las herramientas de aproximación lingüística existentes en un 5 %.

“Cada idioma es un factor muy importante en su cultura. Cada idioma tiene su propia historia, y si no tratas de preservar los idiomas, esas historias podrían perderse”, dijo Li. “Desarrollar este tipo de sistema de reconocimiento de voz y esta herramienta es un paso para tratar de preservar esos idiomas”.