EchoSpeech: revolucionando la comunicación con tecnología de reconocimiento de voz silenciosa

Estás leyendo la publicación: EchoSpeech: revolucionando la comunicación con tecnología de reconocimiento de voz silenciosa

Investigadores de la Universidad de Cornell han desarrollado EchoSpeech, una interfaz de reconocimiento de voz silenciosa que emplea detección acústica e inteligencia artificial para reconocer continuamente hasta 31 comandos no vocalizados basados ​​en movimientos de labios y boca. Esta interfaz portátil de bajo consumo se puede operar en un teléfono inteligente y requiere solo unos minutos de datos de capacitación del usuario para el reconocimiento de comandos.

Ruidong Zhang, estudiante de doctorado en ciencias de la información, es el autor principal de “EchoSpeech: Reconocimiento de voz continuo y silencioso en anteojos mínimamente molestos con tecnología de detección acústica”, que se presentará en la Conferencia de la Asociación de Maquinaria de Computación sobre Factores Humanos en Sistemas de Computación (CHI) este mes en Hamburgo, Alemania.

“Para las personas que no pueden vocalizar el sonido, esta tecnología de voz silenciosa podría ser una entrada excelente para un sintetizador de voz. Podría devolverles a los pacientes sus voces”, dijo Zhang, destacando las posibles aplicaciones de la tecnología con un mayor desarrollo.

Aplicaciones del mundo real y ventajas de privacidad

En su forma actual, EchoSpeech podría usarse para comunicarse con otros a través de un teléfono inteligente en entornos donde el habla es inconveniente o inapropiado, como restaurantes ruidosos o bibliotecas tranquilas. La interfaz de voz silenciosa también se puede combinar con un lápiz óptico y utilizarse con software de diseño como CAD, lo que reduce significativamente la necesidad de un teclado y un mouse.

Equipados con micrófonos y parlantes más pequeños que gomas de borrar, los anteojos EchoSpeech funcionan como un sistema de sonar portátil alimentado por IA, que envía y recibe ondas de sonido en la cara y detecta los movimientos de la boca. Luego, un algoritmo de aprendizaje profundo analiza estos perfiles de eco en tiempo real con aproximadamente un 95 % de precisión.

🔥 Recomendado:  Potencie su marketing en redes sociales con los anuncios dinámicos de Facebook

“Estamos moviendo el sonar hacia el cuerpo”, dijo Cheng Zhang, profesor asistente de ciencias de la información y director del Laboratorio de Interfaces de Computadoras Inteligentes para Interacciones Futuras (SciFi) de Cornell.

La tecnología de reconocimiento de voz silenciosa existente generalmente se basa en un conjunto limitado de comandos predeterminados y requiere que el usuario mire o use una cámara. Cheng Zhang explicó que esto no es práctico ni factible y también plantea importantes problemas de privacidad tanto para el usuario como para aquellos con los que interactúa.

La tecnología de detección acústica de EchoSpeech elimina la necesidad de cámaras de video portátiles. Además, dado que los datos de audio son más pequeños que los datos de imagen o video, requieren menos ancho de banda para procesarse y pueden transmitirse a un teléfono inteligente a través de Bluetooth en tiempo real, según François Guimbretière, profesor de ciencias de la información.

“Y debido a que los datos se procesan localmente en su teléfono inteligente en lugar de cargarse en la nube”, dijo, “la información sensible a la privacidad nunca sale de su control”.