Estás leyendo la publicación: Un nuevo estudio de inteligencia artificial (IA) de CMU y Meta propone un marco para la reiluminación neuronal eficiente de modelos de manos articuladas
El renderizado neuronal es una tecnología de vanguardia que utiliza inteligencia artificial y aprendizaje profundo para crear imágenes y animaciones fotorrealistas. A diferencia de las técnicas de representación tradicionales que se basan en modelos matemáticos, los algoritmos de representación neuronal aprenden a replicar las complejas interacciones entre la luz y los materiales en el mundo real. Esto permite crear imágenes con detalles, texturas y realismo sobresalientes.
La importancia de la representación neuronal radica en su capacidad para mejorar la calidad y la eficiencia de los gráficos por computadora. Al eliminar la necesidad de procesos manuales que requieren mucha mano de obra y simplificar la canalización de renderizado, el renderizado neuronal puede reducir significativamente el tiempo y el costo involucrados en la creación de imágenes y animaciones de alta calidad. Esto lo convierte en una herramienta invaluable para profesionales en industrias como la del cine, el desarrollo de videojuegos y la realidad virtual y aumentada.
Además, la representación neuronal también se puede utilizar para una variedad de aplicaciones creativas, como generar nuevas perspectivas y puntos de vista de escenas existentes, mejorar imágenes de baja resolución y permitir la exploración interactiva de entornos digitales.
Entre los modelos de vanguardia empleados en la representación neuronal, muchos se basan en el uso de modelos geométricos y de apariencia simplificados (como el desollado de mezcla lineal y los modelos de materiales reducidos). Esto permite un cómputo más rápido pero viene con una degradación notable en la fidelidad del renderizado.
Hasta ahora, la representación fotorrealista de manos animables con efectos de iluminación global en tiempo real sigue siendo un desafío abierto.
Para abordar este problema, se ha desarrollado un marco de IA que permite la representación fotorrealista de un modelo de mano personalizado que se puede animar con poses novedosas en entornos de iluminación novedosos y admite la representación de interacciones de dos manos. La idea es construir un modelo de mano que se pueda volver a encender para reproducir capturas de movimientos dinámicos de la mano en el escenario de la luz. Para este propósito, los autores capturan patrones de iluminación multiplexados espaciotemporales, donde la iluminación completa se intercala para permitir el seguimiento del estado actual de la geometría y las poses de la mano.
Este marco de reiluminación neuronal se basa en una interacción profesor-alumno de dos etapas para la representación en tiempo real.
A continuación se muestra una descripción general del modelo de maestro.
El modelo del maestro está capacitado para inferir un valor de radiación dada una posición de punto de luz, una dirección de visualización y visibilidad de la luz.
Aprender el mapeo entre una posición de luz de entrada y la radiación de salida garantiza que la red modele con precisión la reflectancia y la dispersión complejas en la mano sin necesidad de trazar una ruta.
Las iluminaciones naturales se modelan como una combinación de puntos de luz distantes para convertir las manos en iluminaciones arbitrarias.
Las representaciones del modelo del profesor se utilizan luego como verdad de pseudo terreno para entrenar un modelo de estudiante eficiente condicionado en los mapas del entorno de destino, como se ilustra en la imagen a continuación.
Según estudios recientes de reiluminación de retratos neuronales, la información de iluminación se calcula utilizando características de iluminación inspiradas en la física, como la visibilidad, el sombreado difuso y los reflejos especulares. Debido a que estas características se basan en la geometría y representan el primer rebote de la transmisión de luz, se correlacionan fuertemente con la información de iluminación y se pueden aprovechar fácilmente para deducir la radiación correcta en condiciones de iluminación natural. La visibilidad, en particular, es esencial para desenredar luces y posturas, disminuyendo el aprendizaje de correlaciones espurias que pueden existir en datos de entrenamiento restringidos. Sin embargo, calcular la visibilidad con precisión para cada luz es prohibitivamente costoso desde el punto de vista computacional para la visualización en tiempo real.
Para superar esta limitación, se utiliza una malla proxy gruesa para calcular las características de iluminación. Esta malla comparte la misma parametrización UV (bidimensional) que el modelo de mano.
La arquitectura totalmente convolucional aprende a compensar la naturaleza aproximada de las características de entrada e infiere efectos de transporte de luz locales y globales. De esta manera, según los autores, el marco logra un marco alto y puede reproducir la apariencia bajo iluminación natural en tiempo real.
La siguiente figura representa algunos resultados logrados por el enfoque propuesto.
Este fue el resumen de un nuevo marco de IA para la reiluminación neuronal eficiente en tiempo real de modelos de manos articuladas.
Si está interesado o desea obtener más información sobre este marco, puede encontrar un enlace al documento y la página del proyecto.