Investigadores de CMU proponen Pix2pix3D: un modelo generativo condicional consciente de 3D para la síntesis de imágenes fotorrealistas controlables

Estás leyendo la publicación: Investigadores de CMU proponen Pix2pix3D: un modelo generativo condicional consciente de 3D para la síntesis de imágenes fotorrealistas controlables

En los últimos años, la producción de contenido de modelo generativo ha avanzado significativamente, lo que permite la síntesis de imágenes y videos de alta calidad controlable por el usuario. Los usuarios pueden generar y modificar de forma interactiva una imagen de alta resolución utilizando un mapa de etiquetas de entrada 2D y técnicas de traducción de imagen a imagen. Sin embargo, las técnicas actuales de traducción de imagen a imagen solo funcionan en 2D y no consideran explícitamente la estructura 3D subyacente del contenido. Como se ve en la Figura 1, su objetivo es hacer que la síntesis de imágenes condicionales sea compatible con 3D, lo que permite la creación de material 3D y la manipulación de puntos de vista y la modificación de atributos (por ejemplo, modificar la forma de los automóviles en 3D). Puede ser difícil crear material 3D que dependa de la intervención humana. La obtención de grandes conjuntos de datos con entradas de usuario acopladas y salidas 3D previstas es costosa para el entrenamiento de modelos.

Si bien un usuario puede desear describir los detalles de los objetos 3D utilizando interfaces 2D desde varios ángulos, la producción de contenido 3D con frecuencia requiere entradas de usuario de múltiples vistas. Mientras tanto, estas entradas podrían no ser consistentes con 3D, dando señales contradictorias para la producción de contenido 3D. Para superar estos problemas, aplican representaciones de escenas neuronales en 3D a modelos generativos condicionales. También contienen información semántica en 3D para facilitar la edición de vistas cruzadas, que posteriormente se pueden presentar como mapas de etiquetas 2D desde varios ángulos. Solo necesitan supervisión 2D en forma de reconstrucción de imágenes y pérdidas adversarias para aprender la representación 3D mencionada anteriormente.

🔥 Recomendado:  [Fix] Error "No se pudo cargar la imagen, toque para volver a intentarlo" en Instagram

Sin embargo, su discriminador condicional alineado con píxeles promueve la apariencia y las etiquetas para que se vean realistas mientras se alinean con píxeles cuando se representan en nuevas vistas. Al mismo tiempo, la pérdida de reconstrucción asegura la alineación entre las entradas del usuario 2D y el material 3D coincidente. También sugieren una pérdida de consistencia de vista cruzada para requerir que los códigos latentes sean constantes en varias perspectivas. Se concentran en los conjuntos de datos CelebAMask-HQ, AFHQ-cat y shapenetcar para la síntesis de imágenes semánticas conscientes de 3D. Su enfoque utiliza efectivamente diferentes entradas de usuario 2D, como mapas de segmentación y mapas de bordes. Su enfoque supera varias líneas de base 2D y 3D, incluidas las versiones SEAN, SofGAN y Pix2NeRF. Además, minimizan los efectos de diferentes decisiones de diseño y muestran cómo se puede usar su metodología en aplicaciones como la edición cruzada y el control explícito del usuario sobre la semántica y el estilo.

Para ver más hallazgos y códigos, visite su sitio web. Su enfoque actual tiene dos inconvenientes significativos. En primer lugar, se concentra principalmente en modelar el aspecto y la geometría de un tipo de elemento. Sin embargo, determinar una postura canónica para escenas genéricas presenta una tarea difícil. Un próximo paso interesante es extender el enfoque a conjuntos de datos de escena más complicados con muchos objetos. En segundo lugar, el entrenamiento de su modelo necesita posturas de cámara asociadas con cada imagen de entrenamiento, mientras que su enfoque no requiere posturas durante el tiempo de inferencia. La gama de aplicaciones se ampliará aún más al eliminar la necesidad de información de pose.