Una investigación reciente de IA propone IDE-3D: un marco de edición interactivo desenredado para la síntesis de retratos de alta resolución con reconocimiento 3D

Estás leyendo la publicación: Una investigación reciente de IA propone IDE-3D: un marco de edición interactivo desenredado para la síntesis de retratos de alta resolución con reconocimiento 3D

La síntesis de retratos se ha convertido en un campo de rápido crecimiento de los gráficos por computadora en los últimos años. Si se pregunta qué significa la síntesis de retratos, es una tarea de inteligencia artificial (IA) que involucra un generador de imágenes. Este generador está capacitado para producir imágenes faciales fotorrealistas que se pueden manipular de varias maneras, como el corte de pelo, la ropa, las poses y el color de las pupilas. Con los avances en el aprendizaje profundo y la visión por computadora, ahora es posible generar caras 3D fotorrealistas que se pueden usar en diversas aplicaciones, como realidad virtual, videojuegos y películas. A pesar de estos avances, los métodos existentes aún enfrentan desafíos para equilibrar el equilibrio entre la calidad y la capacidad de edición de los retratos generados. Algunos métodos producen caras de baja resolución pero editables, mientras que otros generan caras de alta calidad pero no editables.

Los métodos existentes que utilizan StyleGAN tienen como objetivo proporcionar capacidades de edición mediante el aprendizaje de direcciones específicas de atributos en el espacio latente o mediante la incorporación de varios antecedentes para crear un espacio latente más controlado y separado. Estas técnicas tienen éxito en la generación de imágenes en 2D, pero tienen dificultades para mantener la coherencia en diferentes vistas cuando se aplican a la edición de rostros en 3D.

Otros métodos se centran en las representaciones neuronales para construir redes generativas antagónicas (GAN) conscientes de 3D. Inicialmente, los generadores basados ​​en NeRF se desarrollaron para generar retratos con consistencia en diferentes vistas mediante la utilización de representación volumétrica. Sin embargo, este enfoque es ineficiente en memoria y tiene limitaciones en la resolución y autenticidad de las imágenes sintetizadas. El modelo generativo compatible con 3D que se presenta en este artículo se ha desarrollado para superar estos problemas.

🔥 Recomendado:  Cómo encontrar las mejores palabras clave orgánicas para productos de nicho en Amazon

El marco se denomina IDE-3D y comprende un generador de funciones StyleGAN2 de varios cabezales, un renderizador de volumen neuronal y un muestreador ascendente basado en CNN 2D. A continuación se presenta una descripción general de la arquitectura.

Los códigos de forma y textura se alimentan de forma independiente a las capas superficiales y profundas del generador de funciones StyleGAN para separar diferentes atributos faciales. Las características resultantes se utilizan para construir volúmenes 3D de forma y textura, que se codifican en semántica facial y se representan en una representación triplano eficiente. Luego, estos volúmenes se pueden convertir en retratos fotorrealistas y coherentes con la vista con capacidad de vista libre a través del renderizador de volumen y el muestreador ascendente basado en CNN 2D.

Los autores proponen un enfoque de inversión GAN híbrido para aplicaciones de edición de rostros, que implica mapear la imagen de entrada y la máscara semántica al espacio latente y editar el rostro codificado. El método utiliza una combinación de inversión GAN basada en optimización y codificadores semánticos y de textura para obtener códigos latentes, que se utilizan para la reconstrucción de alta fidelidad. Sin embargo, el código de salida latente de los codificadores no puede reconstruir con precisión las imágenes de entrada y las máscaras semánticas. Para abordar esta limitación, los autores presentan un “editor canónico” que normaliza la imagen de entrada a una vista estándar y la mapea en el espacio latente para la edición en tiempo real sin sacrificar la fidelidad.

Según los autores, el enfoque propuesto da como resultado un generador de caras en 3D con conciencia semántica y desenredado localmente, que admite la síntesis y edición de caras en 3D interactivas con un rendimiento de última generación (en fotorrealismo y eficiencia). La siguiente figura ofrece una comparación entre el marco propuesto y los enfoques más avanzados.

🔥 Recomendado:  Cómo establecer mediante programación los datos de configuración del núcleo de Magento 2

Este fue el resumen de IDE-3D, un marco novedoso y eficiente para la síntesis de retratos 3D fotorrealistas y de alta resolución.

Si está interesado o desea obtener más información sobre este marco, puede encontrar un enlace al documento y la página del proyecto.