NeRFocus: llevar el control de enfoque ligero a los campos de radiación neuronal

Estás leyendo la publicación: NeRFocus: llevar el control de enfoque ligero a los campos de radiación neuronal

Una nueva investigación de China ofrece un método para lograr un control asequible sobre los efectos de profundidad de campo para Neural Radiance Fields (NeRF), lo que permite al usuario final enfocarse en rack y cambiar dinámicamente la configuración de la lente virtual en el espacio de renderizado.

Noble NeRFocusla técnica implementa un enfoque novedoso de “imágenes de lente delgada” para enfocar transversalmente e innova P-entrenamientouna estrategia de entrenamiento probabilístico que elimina la necesidad de conjuntos de datos de profundidad de campo dedicados y simplifica un flujo de trabajo de entrenamiento habilitado para el enfoque.

El papel se titula NeRFocus: campo de radiación neuronal para desenfoque sintético 3Dy proviene de cuatro investigadores de la Escuela de Graduados de Shenzhen en la Universidad de Pekín y el Laboratorio Peng Cheng en Shenzhen, un instituto financiado por el gobierno provincial de Guangdong.

Abordar el locus de atención foveado en NeRF

Si NeRF alguna vez va a ocupar su lugar como una tecnología de conducción válida para la realidad virtual y aumentada, necesitará un método ligero que permita representación foveadadonde la mayoría de los recursos de representación se acumulan alrededor de la mirada del usuario, en lugar de distribuirse indiscriminadamente a una resolución más baja en todo el espacio visual disponible.

Del artículo de 2021 Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, vemos el lugar de atención en un novedoso esquema de representación foveated para NeRF.  Fuente: https://arxiv.org/pdf/2103.16365.pdf

Del artículo de 2021 Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, vemos el lugar de atención en un novedoso esquema de representación foveated para NeRF. Fuente: https://arxiv.org/pdf/2103.16365.pdf

Una parte esencial de la autenticidad de los futuros despliegues de NeRF egocéntrico será la capacidad del sistema para reflejar la propia capacidad del ojo humano para cambiar el enfoque a través de un plano de perspectiva que retrocede (ver la primera imagen de arriba).

Este gradiente de enfoque es también un indicador perceptivo de la escala de la escena; la vista desde un helicóptero que vuela sobre una ciudad tendrá cero campos de enfoque navegables, porque la escena completa existe más allá de la capacidad de enfoque más externa del espectador, mientras que el escrutinio de una escena en miniatura o de ‘campo cercano’ no solo permitirá el ‘enfoque agrupado’, sino debería, en aras del realismo, contener una profundidad de campo estrecha por defecto.

🔥 Recomendado:  Cómo encontrar contenido de tendencias que sea realmente relevante para usted

A continuación se muestra un video que demuestra las capacidades iniciales de NeRFocus, proporcionado por el autor correspondiente del artículo:

Más allá de los planos focales restringidos

Conscientes de los requisitos para el control de enfoque, una serie de proyectos NeRF en los últimos años lo han previsto, aunque todos los intentos hasta la fecha son efectivamente soluciones alternativas de algún tipo, o bien implican notables rutinas de posprocesamiento que hacen ellos contribuciones improbables a los entornos en tiempo real previstos en última instancia para las tecnologías Neural Radiance Fields.

El control focal sintético en los marcos de renderizado neuronal se ha intentado mediante varios métodos en los últimos 5 a 6 años, por ejemplo, mediante el uso de una red de segmentación para cercar los datos de primer plano y de fondo, y luego desenfocar de forma genérica el fondo. solución común para efectos de enfoque de dos planos simples.

Del artículo Segmentación automática de retratos para estilización de imágenes, una separación mundana de planos focales al estilo de la animación.  Fuente: https://jiaya.me/papers/portrait_eg16.pdf

Del artículo ‘Segmentación automática de retratos para estilización de imágenes’, una separación mundana de planos focales al estilo de la animación. Fuente: https://jiaya.me/papers/portrait_eg16.pdf

Las representaciones multiplano agregan algunas “celdas de animación” virtuales a este paradigma, por ejemplo, mediante el uso de la estimación de profundidad para cortar la escena en un gradiente entrecortado pero manejable de distintos planos focales, y luego orquestando núcleos dependientes de la profundidad para sintetizar desenfoque.

Además, y muy relevante para los posibles entornos AR/VR, la disparidad entre los dos puntos de vista de una configuración de cámara estéreo se puede utilizar como un proxy de profundidad, un método propuesto por Google Research en 2015.

Del artículo dirigido por Google Fast Bilateral-Space Stereo for Synthetic Defocus, la diferencia entre dos puntos de vista proporciona un mapa de profundidad que puede facilitar el desenfoque.  Sin embargo, este enfoque no es auténtico en la situación prevista anteriormente, donde la foto se toma claramente con una lente de 35-50 mm (estándar SLR), pero el desenfoque extremo del fondo solo ocurriría con una lente que exceda los 200 mm, que tiene el tipo de plano focal altamente restringido que produce una estrecha profundidad de campo en entornos normales de tamaño humano.  Fuente

Del artículo dirigido por Google Fast Bilateral-Space Stereo for Synthetic Defocus, la diferencia entre dos puntos de vista proporciona un mapa de profundidad que puede facilitar el desenfoque. Sin embargo, este enfoque no es auténtico en la situación prevista anteriormente, donde la foto se toma claramente con una lente de 35-50 mm (estándar SLR), pero el desenfoque extremo del fondo solo ocurriría con una lente que exceda los 200 mm, que tiene el tipo de plano focal altamente restringido que produce una estrecha profundidad de campo en entornos normales de tamaño humano. Fuente

🔥 Recomendado:  Análisis de los datos detrás de uno de los mejores y uno de los peores anuncios del Super Bowl

Los enfoques de esta naturaleza tienden a demostrar artefactos de borde, ya que intentan representar dos esferas de enfoque distintas y limitadas por el borde como un gradiente focal continuo.

En 2021 el RawNeRF La iniciativa ofrecía la funcionalidad High Dynamic Range (HDR), con un mayor control sobre situaciones de poca luz y una capacidad aparentemente impresionante para concentrarse en el rack:

Los bastidores RawNeRF se enfocan maravillosamente (si, en este caso, no son auténticos, debido a planos focales poco realistas), pero tienen un alto costo informático.  Fuente: https://bmild.github.io/rawnerf/

Los bastidores RawNeRF se enfocan maravillosamente (si, en este caso, no son auténticos, debido a planos focales poco realistas), pero tienen un alto costo informático. Fuente: https://bmild.github.io/rawnerf/

Sin embargo, RawNeRF requiere un precálculo complicado para sus representaciones multiplano del NeRF entrenado, lo que da como resultado un flujo de trabajo que no se puede adaptar fácilmente a implementaciones de NeRF más ligeras o de menor latencia.

Modelado de una lente virtual

NeRF en sí se basa en el modelo de imágenes estenopeicas, que representa toda la escena de manera nítida de manera similar a una escena CGI predeterminada (antes de los diversos enfoques que representan el desenfoque como un posprocesamiento o un efecto innato basado en la profundidad de campo).

NeRFocus crea una ‘lente delgada’ virtual (en lugar de una apertura ‘sin vidrio’) que calcula la trayectoria del haz de cada píxel entrante y lo representa directamente, invirtiendo efectivamente el proceso de captura de imagen estándar, que opera después de los hechos en la entrada de luz que ya ha sido afectada por las propiedades refractivas del diseño de la lente.

Este modelo presenta una gama de posibilidades para la representación de contenido dentro del frustum (el círculo de influencia más grande que se muestra en la imagen de arriba).

Calcular el color y la densidad correctos para cada perceptrón multicapa (MLP) en esta gama más amplia de posibilidades es una tarea adicional. Esto ha sido resuelto antes mediante la aplicación de entrenamiento supervisado a una gran cantidad de imágenes DLSR, lo que implica la creación de conjuntos de datos adicionales para un flujo de trabajo de entrenamiento probabilístico, lo que implica efectivamente la preparación laboriosa y el almacenamiento de múltiples recursos informáticos posibles que pueden o no ser necesarios.

🔥 Recomendado:  Promociones, ofertas y bonificaciones de los mejores corredores de bolsa (actualizado mensualmente)

NeRFocus supera esto al P-entrenamiento, donde se generan conjuntos de datos de entrenamiento basados ​​en operaciones básicas de desenfoque. Así, el modelo se forma con operaciones de desenfoque innatas y navegables.

El diámetro de apertura se establece en cero durante el entrenamiento y se utilizan probabilidades predefinidas para elegir un núcleo de desenfoque al azar.  Este diámetro obtenido se usa para aumentar la escala de cada diámetro de cono compuesto, lo que permite que el MLP prediga con precisión el resplandor y la densidad de los troncos (los círculos anchos en las imágenes anteriores, que representan la zona de transformación para cada píxel)

El diámetro de apertura se establece en cero durante el entrenamiento y se utilizan probabilidades predefinidas para elegir un núcleo de desenfoque al azar. Este diámetro obtenido se usa para aumentar la escala de los diámetros de cada cono compuesto, lo que permite que el MLP prediga con precisión la radiación y la densidad de los troncos (los círculos anchos en las imágenes anteriores, que representan la zona máxima de transformación para cada píxel)

Los autores del nuevo artículo observan que NeRFocus es potencialmente compatible con el enfoque basado en HDR de RawNeRF, que podría ayudar potencialmente en la representación de ciertas secciones desafiantes, como reflejos especulares desenfocados, y muchos de los otros efectos computacionalmente intensos que tienen desafió los flujos de trabajo CGI durante treinta años o más.

El proceso no implica requisitos adicionales de tiempo y/o parámetros en comparación con enfoques anteriores como NeRF central y Mip-NeRF (y, presumiblemente Mip-NeRF 360aunque esto no se aborda en el documento), y es aplicable como una extensión general de la metodología central de los campos de radiación neuronal.

Publicado por primera vez el 12 de marzo de 2022.

Tabla de Contenido