Estás leyendo la publicación: Campos de radiación neuronal: aprendizaje de la representación 3D continua de una escena volumétrica con una red neuronal.
¡La red de publicidad push líder, que se preocupa por su ROI! ¡Anuncie cualquier oferta y obtenga altos resultados en más de 185 GEO! CPC comienza desde $ 0.001
¡Únete a Push House ahora!
Campos de radiación neuronal: aprendizaje de la representación 3D continua de una escena volumétrica con una red neuronal:
Un desarrollo reciente en gráficos por computadora llamado Neural Radiance Fields (NeRF) hace posible crear impresionantes representaciones en 3D de situaciones intrincadas y dinámicas. NeRF es una metodología basada en el aprendizaje profundo que crea una representación 3D continua de una escena a partir de una colección de fotos 2D tomadas desde varios ángulos.
La idea central de NeRF es asignar cada punto 3D en el espacio a su valor de radiación asociado usando una función para representar la geometría 3D y el aspecto de una escena (es decir, la intensidad y el color de la luz que pasa por ese punto). Se utiliza una red neuronal profunda para simular esta función, que toma como entradas las coordenadas 3D de un punto y la dirección en la que mira una cámara virtual, y devuelve el valor de radiación que corresponde a esas coordenadas.
Una colección de fotos 2D y las posturas de cámara correspondientes se utilizan como entrada para entrenar el modelo NeRF. Las imágenes se transforman primero en una colección de rayos de visualización, que representan el camino que toman los rayos de luz cuando atraviesan una escena en su camino hacia la cámara. Usando las coordenadas 3D asociadas y la dirección de visualización, el modelo NeRF se entrena para predecir el valor de radiancia para cada ubicación a lo largo de cada rayo de visualización.
Al emitir rayos desde la cámara virtual y utilizar la función NeRF para calcular los valores de radiación asociados, el modelo NeRF se puede usar para generar escenas 3D realistas desde cualquier punto de vista una vez que se haya entrenado. Esto hace que sea factible producir representaciones 3D increíblemente precisas y realistas de escenas que, de otro modo, serían difíciles o imposibles de hacer con los métodos convencionales de gráficos por computadora.
Existen muchos usos posibles para NeRF, incluidos juegos, realidad virtual y aumentada, producción de películas y videos, y simulaciones científicas. Desafortunadamente, actualmente está limitado por la cantidad de trabajo informático y datos de capacitación necesarios. NeRF, sin embargo, ofrece un avance sustancial en la creación de visualizaciones 3D dinámicas y realistas.
La comunidad de visión por computadora ha estado bastante interesada en NeRF desde Mildenhall et al. lo mencionó por primera vez en un artículo de investigación en 2020. La base de NeRF es la idea de que una escena 3D debe representarse como una función continua en lugar de un objeto discreto como una malla o una nube de puntos. Como resultado, NeRF puede representar escenas con una resolución espacial extremadamente alta sin experimentar los inconvenientes de la discretización, como agujeros y representaciones inconsistentes.
NeRF utiliza una red neuronal totalmente conectada que recibe la posición 3D de un punto como entrada y emite el valor de radiación asociado con esa posición. Se pretende que la red sea invariable a la permutación, lo que significa que la salida es independiente del orden en que se presentan los puntos a la red. Esto es significativo porque, en una representación continua, el orden de los puntos no tiene sentido.
Un punto 3D aleatorio en la escena se usa como entrada de la red durante el entrenamiento y su valor de radiancia asociado se produce como salida. La brecha entre el valor de radiancia anticipado y el valor de radiancia real que se muestra en las fotos de la escena se conoce como pérdida de representación y la red está capacitada para reducir esta discrepancia. Al renderizar la escena usando los valores de radiancia esperados y comparando la imagen generada con la imagen observada, se calcula la pérdida de renderizado.
NeRF toma muestras de una serie de rayos desde la ubicación de la cámara y utiliza la función NeRF para pronosticar los valores de radiancia de los puntos 3D a lo largo de los rayos para generar una imagen de la escena desde un punto de vista específico. La imagen final se crea integrando los valores de radiancia a lo largo de los rayos. NeRF puede crear fotografías asombrosas con efectos de iluminación intrincados como reflejos y sombras, y se puede utilizar para crear nuevas perspectivas del entorno que no se vieron en el set de entrenamiento.
NeRF es difícil de emplear para aplicaciones en tiempo real debido a una serie de inconvenientes, como su alto costo computacional y sus necesidades de memoria. NeRF tampoco puede simular situaciones o objetos dinámicos con cámaras en movimiento; solo puede modelar escenas estáticas.
Sin embargo, NeRF marca un logro significativo en el área de la visión por computadora en 3D y tiene el potencial de usarse en una variedad de contextos, como la realidad virtual, la realidad aumentada y la producción de videojuegos.
La comunidad de investigación ha sugerido una serie de extensiones y modificaciones para solucionar los inconvenientes de NeRF. Uno de ellos es NeRF++, que aumenta la eficacia informática de NeRF mediante el uso de una topología de red jerárquica.
La red puede concentrarse en modelar los pequeños detalles de la escena justo donde es necesario gracias a la estructura jerárquica, mientras que las capas superiores de la jerarquía modelan los aspectos más toscos de la escena. Como resultado, tanto la memoria como la eficiencia computacional mejoran significativamente.
Dynamic Neural Radiance Fields (D-NeRF) es una extensión de NeRF que puede modelar escenas y objetos dinámicos con cámaras en movimiento. Para producir representaciones continuas de la escena a lo largo del tiempo, D-NeRF logra esto mediante el aprendizaje de una red neuronal diferente para cada fotograma de la secuencia.
Esto preserva las capacidades de renderizado de alta calidad de NeRF al tiempo que permite que D-NeRF maneje escenas y objetos dinámicos. Los gráficos de escena neuronal y las redes de ocupación son otras dos variantes de NeRF que modelan la escena utilizando representaciones basadas en gráficos y funciones implícitas, respectivamente.
NeRF y sus extensiones ya se han utilizado en varias industrias, incluidas las visitas virtuales, la realidad aumentada y la producción de películas. NeRF, por ejemplo, se ha utilizado para crear modelos 3D de sitios históricos que los usuarios pueden recorrer en un entorno virtual. También se ha aplicado a la creación de fondos fotorrealistas y efectos visuales para películas.
En términos de visión por computadora en 3D, NeRF representa un avance sustancial y tiene el potencial de usarse en una variedad de aplicaciones futuras. Sin embargo, es necesario reducir el gasto computacional de NeRF y sus extensiones para hacerlo más práctico para aplicaciones en tiempo real.