Estás leyendo la publicación: Investigadores de Samsung desarrollan MegaPortraits: un modelo de IA para crear avatares de cabeza neural de megapíxeles de una sola toma
Un método novedoso e intrigante para construir modelos de cabezas virtuales son los avatares de cabezas neurales. Aprenden la forma y apariencia de humanos que hablan en videos, omitiendo el difícil modelado basado en la física de avatares humanos realistas. En los últimos años se han desarrollado técnicas que permiten la creación de avatares realistas a partir de una sola imagen. Para construir los avatares en el modo de una toma, utilizan un entrenamiento previo significativo en los conjuntos de datos masivos de películas de varias personas, utilizando información general sobre el aspecto humano.
La resolución de los conjuntos de datos de entrenamiento restringe mucho la calidad de esta clase de algoritmos a pesar de los excelentes resultados que han producido. Dado que debe ser a gran escala y diversificado, es decir, incluir miles de personas con numerosos fotogramas por persona, datos demográficos, iluminación, fondo, expresión facial y actitud de la cabeza diversos, esta limitación no se puede superar simplemente reuniendo un conjunto de datos de mayor resolución. La resolución de cada conjunto de datos público que satisfaga estos requisitos está restringida. Como resultado, los avatares se aprenden con resoluciones de hasta 512 x 512 incluso con los algoritmos de avatar de un solo uso más modernos.
Los investigadores de Samsung presentaron recientemente en una publicación un nuevo modelo para avatares neuronales de una sola toma que logra una calidad de recreación cruzada de última generación con una resolución de hasta 512 x 512. La idea de representar la apariencia del avatar como un volumen 3D latente se utilizó en la arquitectura, y los investigadores propusieron un nuevo método para fusionarlo con las representaciones de movimiento latente. Este método incluye una pérdida contrastiva novedosa que permite que el sistema logre grados más altos de desenredo entre las representaciones de movimiento latente y apariencia. Además, el equipo desarrolló una pérdida de mirada específica para el problema que mejora el realismo y la precisión de la animación ocular.
Los investigadores también demostraron cómo usar un segundo conjunto de datos de fotos fijas de alta calidad para actualizar un modelo entrenado en películas de resolución media a una resolución de megapíxeles. Como consecuencia, la estrategia sugerida supera el enfoque estándar de súper resolución para la tarea de recreación cruzada a pesar de usar el mismo conjunto de datos de entrenamiento. Por lo tanto, el equipo es el primero en presentar avatares de cabeza neural en la resolución de megapíxeles adecuada.
Los investigadores reducen el modelo de megapíxeles a un modelo de estudiante diez veces más rápido que funciona a 130 FPS en una GPU actual porque muchas aplicaciones prácticas para la producción de avatares humanos requieren tiempo real o una representación más rápida que el tiempo real. Al alumno se le ha enseñado para apariencias específicas, lo que permite esta gran aceleración. Además, las aplicaciones creadas en un modelo de estudiante de este tipo que está restringido a identidades predefinidas pueden evitar que se utilice para crear falsificaciones profundas y, al mismo tiempo, obtener una latencia de representación mínima.
Conclusión
Los investigadores de Samsung revelaron recientemente un método novedoso para crear avatares neuronales de alta resolución en un artículo. Este método acelera el renderizado mientras mantiene una calidad de renderizado comparable al modelo completo de una sola toma. Las características del conjunto de entrenamiento son la causa de las dos principales limitaciones del sistema. En primer lugar, los dos conjuntos de datos de entrenamiento utilizados por los investigadores exhiben una propensión a las vistas casi frontales, lo que reduce la calidad de representación de las posturas de la cabeza significativamente no frontales. En segundo lugar, hay cierto parpadeo temporal en los hallazgos porque solo se proporcionan vistas estáticas en alta resolución. El equipo sugiere abordar estos problemas en trabajos futuros.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘MegaPortraits: avatares de cabeza neural megapíxel de una sola toma‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y github.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools