Creación de deepfakes de cuerpo completo mediante la combinación de varios NeRF

Estás leyendo la publicación: Creación de deepfakes de cuerpo completo mediante la combinación de varios NeRF

El sector de investigación de síntesis de imágenes está plagado de nuevas propuestas de sistemas capaces de crear videos e imágenes de cuerpo completo de jóvenes, principalmente mujeres jóvenes, con diversos tipos de atuendos. Principalmente las imágenes generadas son estáticos; en ocasiones, las representaciones incluso se mueven, aunque normalmente no muy bien.

El ritmo de esta línea de investigación en particular es glacial en comparación con el vertiginoso nivel actual de progreso en campos relacionados, como los modelos de difusión latente; sin embargo, los grupos de investigación, la mayoría en Asia, continúan trabajando sin descanso en el problema.

Uno de las docenas, si no cientos de sistemas de 'prueba virtual' propuestos o semi-lanzados de los últimos 10-15 años, donde los cuerpos se evalúan a través del reconocimiento de objetos basado en el aprendizaje automático y se adaptan a las prendas de vestir propuestas.  Fuente: https://www.youtube.com/watch?v=2ZXrgGyhbak

Uno de las docenas, si no cientos de sistemas de ‘prueba virtual’ propuestos o semi-lanzados de los últimos 10-15 años, donde los cuerpos se evalúan a través del reconocimiento de objetos basado en el aprendizaje automático y se adaptan a las prendas de vestir propuestas. Fuente: https://www.youtube.com/watch?v=2ZXrgGyhbak

El objetivo es crear nuevos sistemas que permitan “pruebas virtuales” para el mercado de la moda y la confección, sistemas que se puedan adaptar tanto al cliente como al producto específico que está actualmente disponible o que está a punto de lanzarse, sin la torpeza de los productos reales. -tiempo superposición de ropao la necesidad de pedir a los clientes que enviar fotos ligeramente NSFW para canalizaciones de representación basadas en ML.

Ninguna de las arquitecturas de síntesis populares parece adaptarse fácilmente a esta tarea: el espacio latente de las redes generativas antagónicas (GAN) no es adecuado para producir un movimiento temporal convincente (o incluso para la edición en general); aunque bien capaces de generar movimientos humanos realistas, los campos de radiación neuronal (Neural Radiance Fields) suelen ser naturalmente resistentes al tipo de edición que sería necesaria para “intercambiar” personas o ropa a voluntad; los codificadores automáticos requerirían un entrenamiento oneroso específico para personas/ropa; y los modelos de difusión latente, como las GAN, no tienen mecanismos temporales nativos para la generación de video.

EVA3D

No obstante, los trabajos y propuestas continúan. Lo último es de un interés inusual en una línea de investigación que de otro modo no se distinguiría y estaría exclusivamente orientada a los negocios.

EVA3Dde la Universidad Tecnológica Nanyang de Singapur, es el primer indicio de un enfoque que ha tardado en llegar: el uso de múltiple Redes de campos de radiación neuronal, cada una de las cuales está dedicada a una parte separada del cuerpo, y que luego se componen en una visualización ensamblada y cohesiva.

Una mujer joven móvil compuesta de múltiples redes NeRF, para EVA3D.  Fuente: https://hongfz16.github.io/projects/EVA3D.html

Una mujer joven móvil compuesta de múltiples redes NeRF, para EVA3D. Fuente: https://hongfz16.github.io/projects/EVA3D.html

Los resultados, en términos de movimiento, son… correctos. Aunque la visualización de EVA3D no está fuera del valle inquietante, al menos pueden ver la rampa de salida desde donde están parados.

Lo que hace que EVA3D sea excepcional es que los investigadores detrás de él, casi únicamente en el sector de la síntesis de imágenes de cuerpo completo, se han dado cuenta de que una sola red (GAN, NeRF o de otro tipo) no será capaz de manejar humanos completos editables y flexibles. generación de cuerpos durante algunos años, en parte debido al ritmo de la investigación y en parte debido al hardware y otras limitaciones logísticas.

🔥 Recomendado:  Aumente sus posibilidades de éxito mediante el uso de una oficina virtual.

Por lo tanto, el equipo de Nanyang ha subdividido la tarea en 16 redes y múltiples tecnologías, un enfoque ya adoptado para la representación neuronal de entornos urbanos en Block-NeRF y CiudadNeRFy que parece probable que se convierta en una medida intermedia cada vez más interesante y potencialmente fructífera para lograr deepfakes de cuerpo completo en los próximos cinco años, a la espera de nuevos desarrollos conceptuales o de hardware.

No todos los desafíos presentes en la creación de este tipo de ‘prueba virtual’ son técnicos o logísticos, y el documento describe algunos de los problemas de datos, particularmente con respecto al aprendizaje no supervisado:

‘[Fashion] los conjuntos de datos en su mayoría tienen poses humanas muy limitadas (la mayoría son poses de pie similares) y ángulos de visión muy desequilibrados (la mayoría son vistas frontales). Esta distribución de datos 2D desequilibrada podría dificultar el aprendizaje no supervisado de GAN 3D, lo que genera dificultades en la síntesis de vista/postura novedosa. Por lo tanto, se necesita una estrategia de capacitación adecuada para aliviar el problema.’

El flujo de trabajo de EVA3D segmenta el cuerpo humano en 16 partes distintas, cada una de las cuales se genera a través de su propia red NeRF. Obviamente, esto crea suficientes secciones ‘descongeladas’ para poder galvanizar la figura a través de la captura de movimiento u otros tipos de datos de movimiento. Sin embargo, además de esta ventaja, también permite que el sistema asigne los máximos recursos a las partes del cuerpo que ‘venden’ la impresión general.

Por ejemplo, los pies humanos tienen un rango de articulación muy limitado, mientras que la autenticidad de la cara y la cabeza, además de la calidad del movimiento de todo el cuerpo en general, es probable que sea la muestra central de autenticidad de la representación.

Una comparación cualitativa entre EVA3D y métodos anteriores.  Los autores afirman los resultados de SOTA a este respecto.

Una comparación cualitativa entre EVA3D y métodos anteriores. Los autores afirman los resultados de SOTA a este respecto.

El enfoque difiere radicalmente del proyecto centrado en NeRF con el que está relacionado conceptualmente: 2021 A-NeRFde la Universidad de Columbia Británica y Reality Labs Research, que buscaba agregar un esqueleto de control interno a una representación NeRF de “una pieza” convencional, lo que dificulta la asignación de recursos de procesamiento a diferentes partes del cuerpo en función de la necesidad. .

Mociones previas: A-NeRF equipa un NeRF 'horneado' con el mismo tipo de aparejo central dúctil y articulado que la industria de VFX ha estado usando durante tanto tiempo para animar personajes CGI.  Fuente: https://lemonatsu.github.io/anerf/

Mociones previas: A-NeRF equipa un NeRF ‘horneado’ con el mismo tipo de aparejo central articulado y dúctil que la industria de VFX ha estado usando durante mucho tiempo para animar personajes CGI. Fuente: https://lemonatsu.github.io/anerf/

🔥 Recomendado:  Explicación de la gestión de la reputación en línea

Al igual que la mayoría de los proyectos similares centrados en el ser humano que buscan aprovechar el espacio latente de los diversos enfoques populares, EVA3D utiliza un modelo lineal de múltiples personas con piel (SMPL), un método ‘tradicional’ basado en CGI para agregar instrumentalidad a la abstracción general de los métodos de síntesis actuales. A principios de este año, otro artículo, esta vez de la Universidad de Zhejiang en Hangzhou, y la Escuela de Medios Creativos de la Universidad de la Ciudad de Hong Kong, utilizó tales métodos para realizar la remodelación del cuerpo neural.

Resultados cualitativos de EVA3D en DeepFashion.

Resultados cualitativos de EVA3D en DeepFashion.

Método

El modelo SMPL utilizado en el proceso está sintonizado con el ‘previo’ humano: la persona que, en esencia, está siendo voluntariamente falsificada por EVA3D, y sus pesos de desollamiento negocian las diferencias entre el espacio canónico (es decir, el ‘en reposo’ o ‘ pose neutral de un modelo SMPL) y la forma en que se representa la apariencia final.

El flujo de trabajo conceptual para EVA3D.  Fuente: https://arxiv.org/pdf/2210.04888.pdf

El flujo de trabajo conceptual para EVA3D. Fuente: https://arxiv.org/pdf/2210.04888.pdf

Como se ve en la ilustración anterior, los cuadros delimitadores de SMPL se utilizan como definiciones de límites para las 16 redes que eventualmente compondrán el cuerpo. Inverso Desollado de mezcla lineal Luego se utiliza el algoritmo LBS (LBS) de SMPL para transferir rayos muestreados visibles al espacio canónico (postura pasiva). Luego, se consultan las 16 subredes, en función de estas configuraciones, y finalmente se conforman en un renderizado final.

Luego, todo el compuesto NeRF se usa para construir un marco GAN humano en 3D.

Las representaciones del marco GAN de la segunda etapa se entrenarán en última instancia contra colecciones de imágenes 2D genuinas de humanos/moda.

Las representaciones del marco GAN de la segunda etapa se entrenarán en última instancia contra colecciones de imágenes 2D genuinas de humanos/moda.

Cada subred que representa una parte del cuerpo humano se compone de perceptrones multicapa (MLP) apilados con SIRENA (Redes de Representación Sinusoidal) activación. Aunque SIREN resuelve muchos problemas en un flujo de trabajo como este y en proyectos similares, tiende a sobreajustarse en lugar de generalizar, y los investigadores sugieren que se podrían usar bibliotecas alternativas en el futuro (consulte el final del artículo).

Datos, entrenamiento y pruebas

EVA3D se enfrenta a problemas de datos inusuales, debido a las limitaciones y el estilo de plantilla de las poses que están disponibles en los conjuntos de datos basados ​​en la moda, que tienden a carecer de vistas alternativas o novedosas, y son, quizás intencionalmente, repetitivas, para centrar la atención en la ropa en lugar del humano que la usa.

Debido a esta distribución de poses desequilibrada, EVA3D utiliza antecedentes humanos (ver arriba) basados ​​en la geometría de la plantilla SMPL y luego predice un desplazamiento de campo de distancia firmado (SDF) de esta pose, en lugar de una pose de destino directa.

Para los experimentos de apoyo, los investigadores utilizaron cuatro conjuntos de datos: modaprofunda; SHHQ; UBCModa; y el Base de datos de videos de baile AIST (Base de datos de danza AIST).

🔥 Recomendado:  Conozca HuggingGPT: un marco que aprovecha los LLM para conectar varios modelos de IA en comunidades de aprendizaje automático (Hugging Face) para resolver tareas de IA

Los dos últimos contienen poses más variadas que los dos primeros, pero representan a los mismos individuos repetidamente, lo que cancela esta diversidad útil; en resumen, los datos son más que desafiantes, dada la tarea.

Ejemplos de SSHQ.  Fuente: https://arxiv.org/pdf/2204.11823.pdf

Ejemplos de SSHQ. Fuente: https://arxiv.org/pdf/2204.11823.pdf

Las líneas de base utilizadas fueron ENARF-GAN, el primer proyecto en renderizar imágenes NeRF a partir de conjuntos de datos de imágenes 2D; Stanford y NVIDIA EG3D; y EstiloSDFuna colaboración entre la Universidad de Washington, Adobe Research y la Universidad de Stanford: todos los métodos requieren bibliotecas de superresolución para poder escalar de resolución nativa a alta.

Las métricas adoptadas fueron la controvertida distancia de inicio de Frechet (DEFENSOR) y la distancia de inicio del núcleo (NIÑO), junto con Porcentaje de puntos clave correctos ([email protected]).

En evaluaciones cuantitativas, EVA3D lideró todas las métricas en cuatro conjuntos de datos:

Resultados cuantitativos.

Resultados cuantitativos.

Los investigadores señalan que EVA3D logra la tasa de error más baja para el renderizado de geometría, un factor crítico en un proyecto de este tipo. También observan que su sistema puede controlar la pose generada y lograr mayores [email protected] puntuaciones, en contraste con EG3D, el único método de la competencia que obtuvo una puntuación más alta, en una categoría.

EVA3D funciona de forma nativa con la resolución estándar actual de 512 x 512 px, aunque se puede escalar fácil y efectivamente a la resolución HD acumulando capas de mayor escala, como lo ha hecho Google recientemente con su oferta de texto a video de resolución 1024. Imagen Vídeo.

El método no está exento de límites. El documento señala que la activación de SIREN puede causar artefactos circulares, que podrían remediarse en versiones futuras mediante el uso de una representación base alternativa, como EG3D, en combinación con un decodificador 2D. Además, es difícil adaptar SMPL con precisión a las fuentes de datos de moda.

Finalmente, el sistema no puede acomodar fácilmente prendas de vestir más grandes y fluidas, como vestidos grandes; las prendas de este tipo exhiben el mismo tipo de dinámica de fluidos que hacen que la creación de cabello con renderizado neuronal sea todo un desafío. Presumiblemente, una solución adecuada podría ayudar a abordar ambos problemas.

Publicado por primera vez el 12 de octubre de 2022.