Estás leyendo la publicación: Investigadores de ETH Zurich y Microsoft proponen X-Avatar: un modelo de avatar humano implícito animable capaz de capturar la postura del cuerpo humano y las expresiones faciales
La postura, el aspecto, la expresión facial, los gestos con las manos, etc., denominados colectivamente “lenguaje corporal”, han sido objeto de muchas investigaciones académicas. Grabar, interpretar y crear con precisión señales no verbales puede mejorar en gran medida el realismo de los avatares en entornos de telepresencia, realidad aumentada (AR) y realidad virtual (VR).
Los modelos de avatar de última generación existentes, como los de la familia SMPL, pueden representar correctamente diferentes formas del cuerpo humano en posiciones realistas. Aún así, están limitados por las representaciones basadas en malla que utilizan y la calidad de la malla 3D. Además, estos modelos a menudo solo simulan cuerpos desnudos y no muestran ropa ni cabello, lo que reduce el realismo de los resultados.
Presentan X-Avatar, un modelo innovador que puede capturar la gama completa de la expresión humana en avatares digitales para crear entornos realistas de telepresencia, realidad aumentada y realidad virtual. X-Avatar es un expresivo modelo implícito de avatar humano desarrollado por investigadores de ETH Zurich y Microsoft. Puede capturar movimientos de mano y cuerpo humano de alta fidelidad, emociones faciales y otros rasgos de apariencia. La técnica puede aprender de escaneos 3D completos o datos RGB-D, produciendo modelos integrales de cuerpos, manos, emociones faciales y apariencia.
Los investigadores proponen un módulo de despellejado de aprendizaje parcial que el espacio de parámetros SMPL-X puede controlar, lo que permite la animación expresiva de X-Avatars. Los investigadores presentan algoritmos únicos de muestreo e inicialización conscientes de las partes para entrenar los campos de forma y deformación neuronal de manera efectiva. Los investigadores aumentan los campos de geometría y deformación con una red de texturas condicionada por la posición, la expresión facial, la geometría y las normales de la superficie deformada para capturar la apariencia del avatar con detalles de alta frecuencia. Esto produce mejores resultados de fidelidad, particularmente para las partes más pequeñas del cuerpo, al mismo tiempo que mantiene la eficacia del entrenamiento a pesar del número creciente de huesos articulados. Los investigadores demuestran empíricamente que el enfoque logra resultados cuantitativos y cualitativos superiores en la tarea de animación en comparación con líneas de base sólidas en ambas áreas de datos.
Los investigadores presentan un nuevo conjunto de datos, denominado X-Humans, con 233 secuencias de escaneos texturizados de alta calidad de 20 sujetos, para 35 500 marcos de datos para ayudar a futuras investigaciones sobre avatares expresivos. X-Avatar sugiere un modelo humano caracterizado por superficies implícitas neuronales articuladas que se adaptan a la topología diversa de individuos vestidos y logran una resolución geométrica mejorada y una mayor fidelidad de la apariencia general. Los autores del estudio definen tres campos neuronales distintos: uno para modelar la geometría usando una red de ocupación implícita, otro para modelar la deformación usando el despellejado de mezcla lineal (LBS) aprendido con pesos de despellejado continuos, y un tercero para modelar la apariencia usando el valor de color RGB.
El modelo X-Avatar puede tomar un escaneo 3D planteado o una imagen RGB-D para su procesamiento. Parte de su diseño incorpora una red de modelado para modelar la geometría en el espacio canónico y una red de deformación que utiliza el despellejado de mezcla lineal aprendido (LBS) para crear correspondencias entre áreas canónicas y deformadas.
Los investigadores comienzan con el espacio de parámetros de SMPL-X, una extensión de SMPL que captura la forma, el aspecto y las deformaciones de personas de cuerpo completo, prestando especial atención a las posiciones de las manos y las emociones faciales para generar avatares humanos expresivos y controlables. Un modelo humano descrito por superficies implícitas neuronales articuladas representa las diversas topologías de individuos vestidos. Al mismo tiempo, un exclusivo método de inicialización consciente de las partes mejora considerablemente el realismo del resultado al aumentar la frecuencia de muestreo para las partes más pequeñas del cuerpo.
Los resultados muestran que X-Avatar puede registrar con precisión el cuerpo humano y las poses de las manos, así como las emociones faciales y la apariencia, lo que permite crear avatares más expresivos y realistas. El grupo detrás de esta iniciativa cruza los dedos para que su método pueda inspirar más estudios para dar más personalidad a las IA.
Conjunto de datos utilizado
Escaneos texturizados de alta calidad y SMPL[-X] registros; 20 sujetos; 233 secuencias; 35.427 fotogramas; posición del cuerpo + gesto de la mano + expresión facial; una amplia gama de opciones de vestimenta y peinado; una amplia gama de edades
Características
- Existen varios métodos para enseñar X-Avatars.
- Imagen de escaneos 3D usados en entrenamiento, arriba a la derecha. En la parte inferior: avatares basados en poses de prueba.
- Información RGB-D con fines instructivos, arriba. Los avatares de prueba de poses se desempeñan en un nivel más bajo.
- El enfoque recupera una mayor articulación de la mano y expresión facial que otras líneas de base en la prueba de animación. Esto da como resultado X-Avatars animados que utilizan movimientos recuperados por PyMAF-X de películas RGB monoculares.
Limitaciones
El X-Avatar tiene dificultad para modelar blusas o pantalones con hombros descubiertos (p. ej., faldas). Sin embargo, los investigadores a menudo solo entrenan un solo modelo por sujeto, por lo que su capacidad para generalizar más allá de un solo individuo aún debe expandirse.
Contribuciones
- X-Avatar es el primer modelo expresivo de avatar humano implícito que captura de manera integral la postura del cuerpo, la postura de la mano, las emociones faciales y la apariencia.
- Los procedimientos de inicialización y muestreo que tienen en cuenta la estructura subyacente aumentan la calidad de los resultados y mantienen la eficiencia del entrenamiento.
- X-Humans es un nuevo conjunto de datos de 233 secuencias que suman 35 500 fotogramas de escaneos texturizados de alta calidad de 20 personas que muestran una amplia gama de movimientos corporales y de manos y emociones faciales.
X-Avatar no tiene rival al capturar la postura del cuerpo, la postura de la mano, las emociones faciales y el aspecto general. Utilizando el conjunto de datos de X-Humans publicado recientemente, los investigadores han demostrado que el método