▷ Detección de videollamadas ultrafalsas a través de la iluminación del monitor

Estás leyendo la publicación: Detección de videollamadas ultrafalsas a través de la iluminación del monitor

Una nueva colaboración entre un investigador de la Agencia de Seguridad Nacional (NSA) de los Estados Unidos y la Universidad de California en Berkeley ofrece un método novedoso para detectar contenido falso profundo en un contexto de video en vivo, al observar el efecto de la iluminación del monitor en la apariencia del persona al otro lado de la videollamada.

El popular usuario de DeepFaceLive, Druuzil Tech & Games, prueba su propio modelo Christian Bale DeepFaceLab en una sesión en vivo con sus seguidores, mientras cambian las fuentes de iluminación. Fuente: https://www.youtube.com/watch?v=XPQLDnogLKA

El sistema funciona colocando un elemento gráfico en la pantalla del usuario que cambia un rango estrecho de su color más rápido de lo que puede responder un sistema deepfake típico, incluso si, como la implementación de transmisión deepfake en tiempo real DeepFaceLive (en la foto de arriba), tiene cierta capacidad de mantener la transferencia de color en vivo y tener en cuenta la iluminación ambiental.

La imagen de color uniforme que se muestra en el monitor de la persona en el otro extremo (es decir, el posible estafador de deepfake) pasa por una variación limitada de cambios de tono que están diseñados para no activar el balance de blancos automático de una cámara web y otros ad hoc sistemas de compensación de iluminación, lo que comprometería el método.

Del artículo, una ilustración del cambio en las condiciones de iluminación del monitor frente a un usuario, que funciona efectivamente como una “luz de área” difusa. Fuente: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

La teoría detrás del enfoque es que los sistemas deepfake en vivo no pueden responder a tiempo a los cambios representados en el gráfico en pantalla, lo que aumenta el “retraso” del efecto deepfake en ciertas partes del espectro de color, revelando su presencia.

Para poder medir con precisión la luz reflejada del monitor, el sistema debe tener en cuenta y luego descontar el efecto de la iluminación ambiental general que no está relacionada con la luz del monitor. Luego, puede distinguir deficiencias en la medición del tono de iluminación activa y el tono facial de los usuarios, lo que representa un cambio temporal de 1 a 4 fotogramas de diferencia entre cada uno:

Al limitar las variaciones de tono en el gráfico del ‘detector’ en pantalla y garantizar que la cámara web del usuario no tenga que ajustar automáticamente su configuración de captura debido a cambios excesivos en los niveles de iluminación del monitor, los investigadores han podido discernir un indicador revelador. retraso en el ajuste del sistema deepfake a los cambios de iluminación.

El documento concluye:

“Debido a la confianza razonable que depositamos en las videollamadas en vivo y la creciente ubicuidad de las videollamadas en nuestra vida personal y profesional, proponemos que las técnicas para autenticar las videollamadas (y audio) solo crecerán en importancia”.

El estudiar se titula Detección de videos falsos profundos en tiempo real usando iluminación activay proviene de Candice R. Gerstner, una matemática de investigación aplicada del Departamento de Defensa de EE. UU. y el profesor Hany Farid de Berkeley.

erosión de la confianza

La escena de la investigación anti-deepfake ha girado notablemente en los últimos seis meses, alejándose de la detección general de deepfake (es decir, enfocándose en videos pregrabados y contenido pornográfico) y hacia la detección de ‘vida’, en respuesta a una ola creciente de incidentes de uso de deepfake en llamadas de videoconferencia, y a la reciente advertencia del FBI sobre el uso creciente de tales tecnologías en aplicaciones para trabajo remoto.

Incluso cuando resulta que una videollamada no ha sido falsificada, las mayores oportunidades para los imitadores de video impulsados por IA son empezando a generar paranoia.

El nuevo documento dice:

‘La creación de falsificaciones profundas en tiempo real [poses] amenazas únicas debido a la sensación general de confianza que rodea un video en vivo o una llamada telefónica, y el desafío de detectar falsificaciones profundas en tiempo real, mientras se desarrolla una llamada”.

Hace tiempo que la comunidad investigadora se fijó el objetivo de encontrar signos infalibles de contenido ultrafalso que no puedan compensarse fácilmente. Aunque los medios típicamente han caracterizado esto en términos de una guerra tecnológica entre investigadores de seguridad y desarrolladores de deepfakes, la mayoría de las negaciones de los primeros enfoques (como análisis de parpadeo, discernimiento de la postura de la cabezay análisis de comportamiento) han ocurrido simplemente porque los desarrolladores y los usuarios intentaban hacer deepfakes más realistas en general, en lugar de abordar específicamente la última ‘información’ identificada por la comunidad de seguridad.

Arrojando luz sobre video falso en vivo

La detección de falsificaciones profundas en entornos de video en vivo conlleva la carga de tener en cuenta las conexiones de video deficientes, que son muy comunes en los escenarios de videoconferencia. Incluso sin una capa intermedia de deepfake, el contenido de video puede estar sujeto a retrasos al estilo de la NASA, artefactos de representación y otros tipos de degradación en audio y video. Estos pueden servir para ocultar las asperezas en una arquitectura de deepfaking en vivo, tanto en términos de deepfakes de video como de audio.

El nuevo sistema de los autores mejora los resultados y métodos que aparecen en un publicación 2020 del Centro de Computación en Red de la Universidad de Temple en Filadelfia.

Del documento de 2020, podemos observar el cambio en la iluminación facial ‘rellena’ a medida que cambia el contenido de la pantalla del usuario. Fuente: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

La diferencia en el nuevo trabajo es que tiene en cuenta la forma en que las cámaras web responden a los cambios de iluminación. Los autores explican:

‘Debido a que todas las cámaras web modernas realizan exposición automática, el tipo de iluminación activa de alta intensidad [used in the prior work] es probable que active la exposición automática de la cámara, lo que a su vez confundirá la apariencia facial registrada. Para evitar esto, empleamos una iluminación activa que consiste en un cambio de tono isoluminante.

“Si bien esto evita la exposición automática de la cámara, podría activar el balance de blancos de la cámara, lo que volvería a confundir la apariencia facial registrada. Para evitar esto, operamos en un rango de tonos que determinamos empíricamente que no activa el balance de blancos.’

Para esta iniciativa, los autores también consideraron esfuerzos previos similares, tales como Pantalla en vivoque fuerza un patrón de iluminación discreto en el monitor del usuario final en un esfuerzo por revelar contenido falso.

Aunque ese sistema logró una tasa de precisión del 94,8 %, los investigadores concluyen que la sutileza de los patrones de luz dificultaría la implementación de un enfoque encubierto de este tipo en entornos muy iluminados y, en cambio, proponen que su propio sistema, o uno con patrones similares, podría incorporarse públicamente y de forma predeterminada en el popular software de videoconferencia:

“Nuestra intervención propuesta podría ser realizada por un participante de la llamada que simplemente comparte su pantalla y muestra el patrón que varía temporalmente o, idealmente, podría integrarse directamente en el cliente de la videollamada”.

Pruebas

Los autores utilizaron una mezcla de sujetos sintéticos y del mundo real para probar su impulsado por Dlib detector de falsificación profunda. Para el escenario sintético, utilizaron Mitsubaun renderizador directo e inverso del Instituto Federal Suizo de Tecnología en Lausana.

Muestras de las pruebas del entorno simulado, que presentan diferentes tonos de piel, tamaño de la fuente de luz, intensidad de la luz ambiental y proximidad a la cámara.

La escena representada incluye una cabeza CGI paramétrica capturada desde una cámara virtual con un campo de visión de 90°. Las cabezas cuentan reflectancia lambertiana y tonos de piel neutros, y están situados a 2 pies frente a la cámara virtual.

Para probar el marco en una gama de posibles tonos de piel y configuraciones, los investigadores realizaron una serie de pruebas, variando diversas facetas secuencialmente. Los aspectos que cambiaron incluyeron el tono de piel, la proximidad y el tamaño de la luz de iluminación.

Los autores comentan:

«En simulación, una vez satisfechas nuestras diversas suposiciones, nuestra técnica propuesta es muy robusta para una amplia gama de configuraciones de imágenes».

Para el escenario del mundo real, los investigadores utilizaron 15 voluntarios con una gama de tonos de piel, en diversos entornos. Cada uno se sometió a dos ciclos de variación de tono restringida, en condiciones en las que se sincronizó una frecuencia de actualización de pantalla de 30 Hz con la cámara web, lo que significa que la iluminación activa solo duraría un segundo a la vez. Los resultados fueron ampliamente comparables con las pruebas sintéticas, aunque las correlaciones aumentaron notablemente con mayores valores de iluminación.

Direcciones futuras

El sistema, admiten los investigadores, no tiene en cuenta las oclusiones faciales típicas, como flequillo, anteojos o vello facial. Sin embargo, señalan que el enmascaramiento de este tipo se puede agregar a sistemas posteriores (a través del etiquetado y la subsiguiente segmentación semántica), que podrían entrenarse para tomar valores exclusivamente de las áreas de piel percibidas en el sujeto objetivo.

Los autores también sugieren que se podría emplear un paradigma similar para detectar llamadas de audio falsificadas y que el sonido de detección necesario podría reproducirse en una frecuencia fuera del rango auditivo humano normal.

Quizás lo más interesante es que los investigadores también sugieren que extender el área de evaluación más allá de la cara en un marco de captura más rico podría mejorar notablemente la posibilidad de detección de falsificación profunda*:

‘Un 3-D más sofisticado estimación de iluminación probablemente proporcionaría un modelo de apariencia más rico que sería aún más difícil de eludir para un falsificador. Si bien nos enfocamos solo en la cara, la pantalla de la computadora también ilumina el cuello, la parte superior del cuerpo y el fondo circundante, a partir de los cuales se pueden realizar mediciones similares.

“Estas medidas adicionales obligarían al falsificador a considerar toda la escena tridimensional, no solo la cara”.

* Mi conversión de las citas en línea de los autores a hipervínculos.

Publicado por primera vez el 6 de julio de 2022.

Tabla de Contenido

Detección de videollamadas ultrafalsas a través de la iluminación del monitor

erosión de la confianza

Arrojando luz sobre video falso en vivo

Pruebas

Direcciones futuras

Otros temas interesantes: