Estás leyendo la publicación: Conozca a Rodin: un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de varias fuentes de entrada
Los modelos generativos se están convirtiendo en la solución de facto para muchas tareas desafiantes en informática. Representan una de las formas más prometedoras de analizar y sintetizar datos visuales. Stable Diffusion es el modelo generativo más conocido para producir imágenes bellas y realistas a partir de un indicador de entrada complejo. La arquitectura se basa en modelos de difusión (DM), que han demostrado un poder generativo fenomenal para imágenes y videos. Los rápidos avances en la difusión y el modelado generativo están impulsando una revolución en la creación de contenido 2D. El mantra es bastante simple: “Si puedes describirlo, puedes visualizarlo”. o mejor, “si puedes describirlo, el modelo puede pintarlo por ti”. Es realmente increíble de lo que son capaces los modelos generativos.
Si bien se demostró que el contenido 2D es una prueba de estrés para los DM, el contenido 3D plantea varios desafíos debido, entre otros, a la dimensión adicional. Generar contenido 3D, como avatares, con la misma calidad que el contenido 2D es una tarea difícil dados los costos de procesamiento y memoria, que pueden ser prohibitivos para producir los detalles enriquecidos necesarios para avatares de alta calidad.
Con la tecnología impulsando el uso de avatares digitales en películas, juegos, metaverso y la industria 3D, permitir que cualquier persona cree un avatar digital puede ser beneficioso. Esa es la motivación que impulsa el desarrollo de este trabajo.
Los autores proponen la red de difusión Roll-out (Rodin) para abordar el tema de la creación de un avatar digital. En la siguiente figura se muestra una descripción general del modelo.
La entrada al modelo puede ser una imagen, un ruido aleatorio o una descripción de texto del avatar deseado. El vector latente z se deriva posteriormente de la entrada dada y se emplea en la difusión. El proceso de difusión consta de varios pasos de ruido-eliminación de ruido. En primer lugar, se agrega ruido aleatorio al estado o imagen inicial y se elimina el ruido para obtener una imagen mucho más nítida.
La diferencia aquí radica en la naturaleza 3D del contenido deseado. El proceso de difusión se ejecuta como de costumbre, pero en lugar de apuntar a una imagen 2D, el modelo de difusión genera la geometría gruesa del avatar, seguida de un muestreador ascendente de difusión para la síntesis de detalles.
La eficiencia computacional y de memoria es uno de los objetivos de este trabajo. Para lograr esto, los autores explotaron la representación de tres planos (tres ejes) de un campo de radiación neuronal que, en comparación con las cuadrículas de vóxeles, ofrece una huella de memoria considerablemente más pequeña sin sacrificar la expresividad.
A continuación, se entrena otro modelo de difusión para aumentar la muestra de la representación triplano producida para que coincida con la resolución deseada. Finalmente, se explota un decodificador MLP liviano que consta de 4 capas completamente conectadas para generar una imagen volumétrica RGB.
A continuación se informan algunos resultados.
En comparación con los enfoques de vanguardia mencionados, Rodín proporciona los avatares digitales más nítidos. Para el modelo, no se ven artefactos en las muestras compartidas, a diferencia de las otras técnicas.
Este fue el resumen de Rodín, un marco novedoso para generar fácilmente avatares digitales en 3D a partir de varias fuentes de entrada. Si estás interesado, puedes encontrar más información en los siguientes enlaces.