Estás leyendo la publicación: RigNeRF: un nuevo método de deepfakes que utiliza campos de radiación neuronal
Una nueva investigación desarrollada en Adobe ofrece el primer método de falsificación profunda viable y eficaz basado en Neural Radiance Fields (NeRF), quizás la primera innovación real en arquitectura o enfoque en los cinco años desde la aparición de las falsificaciones profundas en 2017.
El método, titulado RigNeRFusos Modelos de rostros transformables en 3D (3DMM) como una capa intersticial de instrumentalidad entre la entrada deseada (es decir, la identidad que se va a imponer en el render NeRF) y el espacio neuronal, un método que ha sido ampliamente adoptado en los últimos años por los enfoques de síntesis de cara de la Red Generativa Adversarial (GAN). , ninguno de los cuales ha producido marcos de reemplazo de rostros funcionales y útiles para video.
Los 3DMM son efectivamente modelos CGI de caras, cuyos parámetros se pueden adaptar a sistemas de síntesis de imágenes más abstractos, como NeRF y GAN, que de otro modo son difíciles de controlar.
Lo que está viendo en la imagen de arriba (imagen del medio, hombre con camisa azul), así como la imagen directamente debajo (imagen de la izquierda, hombre con camisa azul), no es un video ‘real’ en el que un pequeño parche de ‘ se ha superpuesto una cara falsa, pero una escena completamente sintetizada que existe únicamente como una representación neuronal volumétrica, que incluye el cuerpo y el fondo:
En el ejemplo directamente anterior, el video de la vida real a la derecha (mujer con vestido rojo) se usa para “marionetar” la identidad capturada (hombre con camisa azul) a la izquierda a través de RigNeRF, que (afirman los autores) es la primera Sistema basado en NeRF para lograr la separación de pose y expresión mientras se pueden realizar síntesis de vista novedosas.
La figura masculina de la izquierda en la imagen de arriba fue ‘capturada’ de un video de teléfono inteligente de 70 segundos, y los datos de entrada (incluida la información completa de la escena) posteriormente se entrenaron en 4 GPU V100 para obtener la escena.
Dado que los equipos paramétricos estilo 3DMM también están disponibles como proxies CGI paramétricos de cuerpo entero (en lugar de solo plataformas faciales), RigNeRF potencialmente abre la posibilidad de falsificaciones profundas de cuerpo completo donde el movimiento humano real, la textura y la expresión se pasan a la capa paramétrica basada en CGI, que luego traduciría la acción y la expresión en entornos y videos NeRF renderizados. .
En cuanto a RigNeRF, ¿califica como un método deepfake en el sentido actual en que los titulares entienden el término? ¿O es solo otro semi-cojeado también-corrió hacia DeepFaceLab y otros sistemas deepfake de codificador automático de la era 2017 que requieren mucha mano de obra?
Los investigadores del nuevo artículo son inequívocos en este punto:
“Al ser un método que es capaz de reanimar rostros, RigNeRF es propenso al mal uso por parte de malos actores para generar falsificaciones profundas”.
El nuevo papel se titula RigNeRF: retratos 3D neuronales totalmente controlablesy proviene de ShahRukh Atha de la Universidad de Stonybrook, pasante en Adobe durante el desarrollo de RigNeRF, y otros cuatro autores de Adobe Research.
Más allá de las falsificaciones profundas basadas en codificadores automáticos
La mayoría de los deepfakes virales que han acaparado los titulares en los últimos años son producidos por sistemas basados en codificadores automáticos, derivados del código que se publicó en el subreddit r/deepfakes, rápidamente prohibido en 2017, aunque no antes de ser copiado a GitHub, donde actualmente se ha bifurcado más de mil vecessobre todo en lo popular (si controversial) DeepFaceLab distribución, y también la Intercambio cara proyecto.
Además de GAN y NeRF, los marcos de codificación automática también han experimentado con 3DMM como “pautas” para mejorar los marcos de síntesis facial. Un ejemplo de esto es el proyecto HifiFace de julio de 2021. Sin embargo, hasta la fecha no parece haberse desarrollado ninguna iniciativa útil o popular a partir de este enfoque.
Los datos de las escenas RigNeRF se obtienen capturando videos cortos de teléfonos inteligentes. Para el proyecto, los investigadores de RigNeRF utilizaron un iPhone XR o un iPhone 12 para todos los experimentos. Para la primera mitad de la captura, se le pide al sujeto que realice una amplia gama de expresiones faciales y habla mientras mantiene la cabeza quieta mientras la cámara se mueve a su alrededor.
Para la segunda mitad de la captura, la cámara mantiene una posición fija mientras el sujeto debe mover la cabeza mientras muestra una amplia gama de expresiones. Los 40-70 segundos de metraje resultantes (alrededor de 1200-2100 fotogramas) representan el conjunto de datos completo que se usará para entrenar el modelo.
Reducir la recopilación de datos
Por el contrario, los sistemas de codificación automática como DeepFaceLab requieren la recopilación y selección relativamente laboriosas de miles de fotografías diversas, a menudo tomadas de videos de YouTube y otros canales de redes sociales, así como de películas (en el caso de las falsificaciones profundas de celebridades).
Los modelos de codificador automático entrenados resultantes a menudo están destinados a ser utilizados en una variedad de situaciones. Sin embargo, los deepfakers de ‘celebridades’ más fastidiosos pueden entrenar modelos completos desde cero para un solo video, a pesar de que el entrenamiento puede llevar una semana o más.
A pesar de la nota de advertencia de los investigadores del nuevo artículo, es poco probable que el ‘mosaico’ y los conjuntos de datos ampliamente ensamblados que impulsan la pornografía de IA, así como las populares ‘reinversiones de falsificación profunda’ de YouTube/TikTok, produzcan resultados aceptables y consistentes en un sistema de falsificación profunda como RigNeRF. que tiene una metodología específica de escena. Dadas las restricciones sobre la captura de datos descritas en el nuevo trabajo, esto podría resultar, hasta cierto punto, una protección adicional contra la apropiación indebida de identidad por parte de falsificadores malintencionados.
Adaptando NeRF a Deepfake Video
NeRF es un método basado en la fotogrametría en el que una pequeña cantidad de imágenes de origen tomadas desde varios puntos de vista se ensamblan en un espacio neuronal 3D explorable. Este enfoque saltó a la fama a principios de este año cuando NVIDIA presentó su NeRF instantáneo sistema, capaz de reducir los tiempos de entrenamiento exorbitantes para NeRF a minutos, o incluso segundos:
La escena resultante de Neural Radiance Field es esencialmente un entorno estático que se puede explorar, pero que es difícil de editar. Los investigadores señalan que dos iniciativas anteriores basadas en NeRF: HiperNeRF + E/P y NerFACE – han intentado la síntesis de video facial y (aparentemente en aras de la integridad y la diligencia) han comparado a RigNeRF con estos dos marcos en una ronda de prueba:
Sin embargo, en este caso los resultados, que favorecen a RigNeRF, son bastante anómalos, por dos razones: en primer lugar, los autores observan que ‘no hay trabajo existente para una comparación de manzana a manzana’; en segundo lugar, esto ha requerido la limitación de las capacidades de RigNeRF para que coincida, al menos parcialmente, con la funcionalidad más restringida de los sistemas anteriores.
Dado que los resultados no son una mejora incremental en el trabajo anterior, sino que representan un “avance” en la capacidad de edición y utilidad de NeRF, dejaremos de lado la ronda de prueba y, en cambio, veremos qué está haciendo RigNeRF de manera diferente a sus predecesores.
Fuerzas Combinadas
La principal limitación de NerFACE, que puede crear control de pose/expresión en un entorno NeRF, es que asume que el metraje de origen se capturará con una cámara estática. Esto significa efectivamente que no puede producir vistas novedosas que se extiendan más allá de sus limitaciones de captura. Esto produce un sistema que puede crear ‘retratos en movimiento’, pero que no es adecuado para video estilo deepfake.
HyperNeRF, por otro lado, si bien es capaz de generar vistas novedosas e hiperreales, no tiene ningún instrumento que le permita cambiar las poses de la cabeza o las expresiones faciales, lo que nuevamente no resulta en ningún tipo de competidor para las falsificaciones profundas basadas en codificadores automáticos.
RigNeRF puede combinar estas dos funcionalidades aisladas mediante la creación de un “espacio canónico”, una línea de base predeterminada a partir de la cual se pueden promulgar desviaciones y deformaciones a través de la entrada del módulo 3DMM.
Dado que el sistema 3DMM no coincidirá exactamente con el sujeto capturado, es importante compensar esto en el proceso. RigNeRF logra esto con un campo de deformación previo que se calcula a partir de un perceptrón multicapa (MLP) derivado del metraje de origen.
Los parámetros de cámara necesarios para calcular las deformaciones se obtienen mediante COLMAPAmientras que los parámetros de expresión y forma de cada fotograma se obtienen a partir de DECA.
El posicionamiento se optimiza aún más a través de ajuste de punto de referencia y los parámetros de la cámara de COLMAP y, debido a las restricciones de recursos informáticos, la salida de video se reduce a una resolución de 256 × 256 para el entrenamiento (un proceso de reducción limitado por hardware que también afecta la escena de falsificación profunda del codificador automático).
Después de esto, la red de deformación se entrena en los cuatro V100, un hardware formidable que probablemente no esté al alcance de los entusiastas casuales (sin embargo, en lo que respecta al entrenamiento de aprendizaje automático, a menudo es posible intercambiar peso por tiempo y simplemente aceptar ese modelo el entrenamiento será cuestión de días o incluso semanas).
En conclusión, los investigadores afirman:
“A diferencia de otros métodos, RigNeRF, gracias al uso de un módulo de deformación guiada por 3DMM, es capaz de modelar la postura de la cabeza, las expresiones faciales y la escena del retrato 3D completo con alta fidelidad, lo que brinda mejores reconstrucciones con detalles nítidos”.
Vea los videos incrustados a continuación para obtener más detalles y secuencias de resultados.
Publicado por primera vez el 15 de junio de 2022.