Investigadores de la Universidad de Columbia proponen ‘camuflaje de voz neuronal’: un enfoque basado en ataques adversos que interrumpe los sistemas automáticos de reconocimiento de voz en tiempo real

Estás leyendo la publicación: Investigadores de la Universidad de Columbia proponen ‘camuflaje de voz neuronal’: un enfoque basado en ataques adversos que interrumpe los sistemas automáticos de reconocimiento de voz en tiempo real

Este artículo está escrito como un resumen por el personal de Marktechpost basado en el documento de investigación ‘CAMUFLAJE DE VOZ NEURAL EN TIEMPO REAL‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y entrada en el blog.

Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático

¿Alguna vez ha tenido la inquietante sensación de que alguien está escuchando cada una de sus palabras? Esto se debe a que puede ser cierto. Las empresas han estado empleando “bossware” para escuchar a sus empleados mientras están cerca de sus computadoras desde el principio de los tiempos. Hay varias aplicaciones de “spyware” disponibles que pueden grabar llamadas telefónicas. Los modelos de reconocimiento automático de voz como Echo de Amazon y Siri de Apple pueden grabar su conversación diaria en función de los comandos de voz. Para abordar este problema crítico, un grupo de investigadores de la Universidad de Columbia ha ideado un nuevo método llamado Camuflaje de voz neuronal. El quid de la tecnología es que crea ruido de audio personalizado en el fondo mientras habla una persona, lo que confunde al modelo de inteligencia artificial que transcribe los sonidos grabados. El nuevo sistema utiliza un método de “ataque adversario”, en el que se utiliza el aprendizaje automático para cambiar los sonidos de tal manera que otros modelos de IA los malinterpreten como algo más. De alguna manera, utiliza un modelo de aprendizaje automático para engañar a otro. Este procedimiento, sin embargo, no es tan simple como parece porque el modelo primero debe procesar todo el clip de sonido antes de saber cómo cambiarlo, dejándolo no funcional en tiempo real. Varios grupos de investigación han intentado construir modelos robustos que puedan romper redes neuronales operando en tiempo real a lo largo de la década anterior. Sin embargo, no han logrado cumplir con ambos requisitos previos.

Como resultado de su último estudio, el equipo ha entrenado con éxito un sistema de red neuronal inspirado en el cerebro para predecir el futuro. Durante varias horas de voz grabada, se perfeccionó para procesar muestras de audio de 2 segundos sobre la marcha y ocultar lo que se va a decir a continuación. El algoritmo considera lo que se acaba de decir y las características de la voz del hablante para generar sonidos que interrumpen una variedad de palabras concebibles. Los humanos no tienen problemas para reconocer las palabras habladas porque el disfraz de audio suena como un ruido de fondo. Las máquinas, por otro lado, no son lo mismo. La tecnología mejoró la tasa de error de palabras del programa ASR de 11,3 por ciento a 80,2 por ciento. El discurso disfrazado de ruido blanco y un enfoque adversario competitivo tenían tasas de error de solo 12,8 y 20,5 por ciento, respectivamente. Incluso después de ser entrenado para transcribir el habla afectada por Neural Voice Camouflage, la tasa de error del sistema ASR se mantuvo en 52,5 por ciento. Las palabras cortas fueron las más difíciles de interrumpir, ya que son los aspectos menores reveladores de una conversación.

Fuente: https://openreview.net/pdf?id=qj1IZ-6TInc

Como parte de los estudios cuantitativos, los investigadores probaron el enfoque en el mundo real al reproducir una grabación de voz mezclada con el camuflaje a través de parlantes en la misma habitación que un micrófono. La estrategia funcionó bien. Debido a que muchos modelos ASR usan modelos de lenguaje para predecir resultados, el sistema también se probó en ese contexto. En comparación con un sistema ASR con un mecanismo de defensa, el ataque del sistema supera, lo que lo convierte en un éxito increíble en la eliminación del ruido blanco. El trabajo del equipo también se presentó recientemente en un documento en la codiciada Conferencia Internacional sobre Representaciones de Aprendizaje.

Según el científico investigador líder, este experimento es el primer paso para garantizar la privacidad frente a la IA. El objetivo final es crear tecnologías que protejan la privacidad de los usuarios y les den control sobre sus datos de voz. Otras aplicaciones que requieren procesamiento en tiempo real, como los vehículos sin conductor, pueden beneficiarse del concepto. Es un paso más cerca de simular con precisión cómo funciona el cerebro. La combinación de un problema de máquina clásico de predicción futura con el desafío del aprendizaje automático antagónico ha llevado al descubrimiento de nuevos dominios de estudio en el campo. Se puede argumentar que el camuflaje de audio se necesita desesperadamente, ya que prácticamente todos hoy en día son vulnerables a los algoritmos de seguridad que malinterpretan su discurso.

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools

🔥 Recomendado:  ¿Cuáles son los mejores generadores de titulares de LinkedIn para probar?