Investigadores de IA de Apple desarrollan GMPI (imágenes multiplano generativas) para hacer un GAN 2D 3D-Aware

Estás leyendo la publicación: Investigadores de IA de Apple desarrollan GMPI (imágenes multiplano generativas) para hacer un GAN 2D 3D-Aware

Usando un conjunto de datos de entrenamiento dado como guía, las redes antagónicas generativas (GAN) han logrado excelentes resultados al muestrear nuevas imágenes que son “similares” a las del conjunto de entrenamiento. En particular, se han registrado mejoras significativas en la calidad y resolución de las imágenes producidas en los últimos años. La mayoría de estos desarrollos se concentran en situaciones en las que el espacio de salida del generador y el conjunto de datos proporcionado son los mismos, y las salidas suelen ser imágenes o, esporádicamente, volúmenes en 3D. Sin embargo, la literatura más reciente se ha concentrado en producir resultados creativos que difieren de los datos de capacitación disponibles. Esto cubre técnicas que crean geometría 3D y la textura asociada para una clase particular de objetos, como caras, incluso cuando el conjunto de datos proporcionado solo comprende fotos de vista única generalmente accesibles.

Los sesgos inductivos conscientes de 3D son con frecuencia volúmenes 3D explícitos o implícitos que requieren mucha memoria. El entrenamiento de estas GAN conscientes de 3D se supervisa sin usar geometría 3D o imágenes de vista múltiple. El trabajo anterior a menudo combina sesgos inductivos conscientes de 3D como una cuadrícula de vóxeles 3D o una representación implícita con un motor de renderizado para aprender la geometría 3D a partir de una supervisión tan restringida. Sin embargo, aumentar el calibre de los resultados de estos métodos sigue siendo complicado: la representación suele ser difícil desde el punto de vista computacional, por ejemplo, implica un muestreo significativo de dos pasos en un volumen 3D y la posterior decodificación de las características resultantes.

🔥 Recomendado:  Brand Storytelling: todo lo que necesitas saber para contar tu historia

Además, debido a que es necesario cambiar la salida del generador o toda su estructura, las lecciones aprendidas de las GAN 2D a veces no se pueden transferir de inmediato. Esto plantea la pregunta: “¿Qué se requiere para transformar un GAN 2D en un modelo 3D? Para resolver este problema, los investigadores tienen la intención de alterar un GAN 2D existente lo menos posible. Además, se esfuerzan por lograr un proceso de inferencia y entrenamiento productivo. Comenzaron con el popular modelo StyleGANv2, que tiene la ventaja adicional de que muchos hitos de capacitación son de libre acceso. Para StyleGANv2, crean explícitamente una nueva rama del generador que produce una serie de mapas alfa fronto-paralelos conceptualmente comparables a las imágenes multiplano (MPI).

Son los primeros en demostrar que los MPI pueden servir como una representación de escena para modelos generativos conscientes de 3D incondicionales, en la medida en que son conscientes. Adquieren una generación consciente de 3D desde varios puntos de vista al tiempo que garantizan la coherencia de la vista. Se logra combinando los mapas alfa producidos con la salida de imagen estándar única de StyleGANv2 en una representación de estilo multiplano diferenciable de extremo a extremo. Los mapas alfa son particularmente efectivos en la representación, aunque su capacidad para administrar las oclusiones está restringida. Además, para disipar las preocupaciones de memoria, la cantidad de mapas alfa puede cambiarse dinámicamente e incluso puede variar entre entrenamiento e inferencia. Mientras se ajustan el generador y el discriminador StyleGANv2 normales, esta nueva rama alfa se entrena desde cero.

Los investigadores se refieren a la salida generada de este método como una “imagen multiplano generativa” (GMPI). Para obtener mapas alfa que muestren una estructura 3D esperada, descubren que solo son esenciales dos ajustes de StyleGANv2. En primer lugar, la predicción del mapa alfa de cualquier avión en el MPI debe estar condicionada a la profundidad del avión o a un token que se pueda aprender. En segundo lugar, el discriminador tiene que estar condicionado por las poses de la cámara. Si bien estos dos ajustes parecen intuitivos en retrospectiva, sigue siendo sorprendente que un mapa alfa con planos condicionados por su profundidad y el uso de la información de la posición de la cámara en el discriminador sean sesgos inductivos suficientes para la conciencia 3D. Un sesgo inductivo adicional que mejora los mapas alfa es una representación 3D que incorpora sombreado.

🔥 Recomendado:  Cultivos más rentables para pequeñas fincas en 2023

Aunque ventajosa, esta tendencia inductiva no era esencial para adquirir conciencia 3D. Además, debido a que no tienen en cuenta la geometría, las métricas para la evaluación GAN 2D tradicional, como la distancia de inicio de Fr’echet (FID) y la distancia de inicio del núcleo (KID), pueden producir resultados falsos. Aunque no es necesariamente esencial, más información tiene beneficios. En conclusión, los investigadores tienen dos contribuciones:

  1. Este documento es el primero en examinar un GAN 2D que es consciente de 3D al condicionar los planos alfa en profundidad o un token de aprendizaje y el discriminador en la postura de la cámara.
  2. También es el primero en explorar un modelo generativo compatible con 3D similar a MPI entrenado con conjuntos de datos de imágenes 2D de vista única estándar. En tres conjuntos de datos de alta resolución, FFHQ, AFHQv2 y MetFaces, investigan los métodos anteriores para codificar sesgos inductivos conscientes de 3D.

La implementación de Pytorch de este documento está disponible en GitHub.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Imágenes multiplano generativas: hacer un 2D GAN 3D-Aware‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools