Estás leyendo la publicación: Este documento de IA presenta F2NeRF: un nuevo sistema NeRF basado en cuadrícula para una síntesis de vista novedosa rápida y eficiente
A medida que surgió recientemente el Neural Radiance Field (NeRF), la innovadora investigación de síntesis de vista ha evolucionado significativamente. El concepto principal de NeRF es utilizar el enfoque de representación de volumen diferenciable para mejorar las redes de perceptrón multicapa (MLP) para codificar los campos de densidad y radiación de la escena. Después del entrenamiento, NeRF puede producir fotografías de alta calidad a partir de posturas de cámara creativas. Aunque NeRF puede proporcionar resultados de renderizado fotorrealistas, entrenar un NeRF puede llevar horas o días debido a la lentitud de la optimización de la red neuronal profunda, lo que restringe el rango de aplicaciones para las que se puede usar.
Estudios recientes muestran que las técnicas basadas en cuadrículas como Plenoxels, DVGO, TensoRF e Instant-NGP permiten un entrenamiento rápido de un NeRF en minutos. Sin embargo, cuando una imagen se hace más grande, el uso de memoria de dichas representaciones basadas en cuadrículas aumenta en orden cúbico. La poda de vóxeles, la descomposición de tensores y la indexación de hash son solo algunas de las formas que se han sugerido para disminuir el uso de la memoria. Sin embargo, estos algoritmos solo pueden manejar escenas restringidas cuando las cuadrículas se construyen en el espacio euclidiano original. Una técnica de deformación del espacio que convierte un espacio ilimitado en uno limitado es un enfoque que se usa con frecuencia para describir escenarios ilimitados.
Por lo general, hay dos tipos diferentes de funciones de deformación. (1) Para escenas orientadas hacia adelante (Fig. 1 (a)), la deformación de coordenadas de dispositivo normalizado (NDC) se usa para mapear un frustum de vista infinitamente lejano a un cuadro delimitado aplastando el espacio a lo largo del eje z. (2) Para escenas ilimitadas centradas en objetos de 360°, la deformación de esfera inversa puede asignar un espacio infinitamente grande a una esfera limitada mediante la transformación de inversión de esfera. Sin embargo, estas dos técnicas de deformación no pueden acomodar patrones de trayectoria de cámara aleatorios y, en cambio, asumen ciertos. La calidad de las imágenes producidas sufre particularmente cuando una trayectoria es larga y comprende varios elementos de interés, conocidos como trayectorias libres, como se ve en la Fig. 1(c).
La asignación desigual de la capacidad de representación espacial conduce a una disminución del rendimiento de las trayectorias libres. En particular, numerosas áreas del paisaje permanecen vacías e invisibles para cualquier perspectiva de entrada cuando la trayectoria es larga y estrecha. Sin embargo, independientemente de si el área está vacante, las cuadrículas de los enfoques actuales se distribuyen de manera consistente sobre el cuadro completo. Como resultado, gran parte de la capacidad de representación debe recuperarse en el espacio no utilizado. Aunque este despilfarro se puede reducir empleando la poda progresiva de vóxeles vacíos, la descomposición de tensores o la indexación de hash, todavía da como resultado imágenes borrosas ya que la memoria de la GPU está limitada.
Además, solo las vistas de entrada dispersas y lejanas llenan los espacios de fondo, mientras que muchos elementos de primer plano en la Fig. 1 (c) se observan con vistas de entrada densas y cercanas en los espacios visibles. En este escenario, las cuadrículas densas deben asignarse a los objetos de primer plano para mantener los detalles de la forma, y las cuadrículas gruesas deben colocarse en el área de fondo para aprovechar al máximo la representación espacial de la cuadrícula. Sin embargo, los sistemas basados en redes existentes distribuyen las redes uniformemente en el área, lo que resulta en un uso ineficiente de la capacidad representativa. Investigadores de la Universidad de Hong Kong, S-Lab NTU, Max Plank Institute y Texas A&M University sugieren F2 -NeRF (Fast-Free-NeRF), el primer enfoque de entrenamiento rápido de NeRF que permite trayectorias de cámara libres para escenas grandes e ilimitadas, para resolver los problemas antes mencionados.
F2: NeRF, basado en el marco Instant-NGP, conserva la rápida velocidad de convergencia de la representación de hash-grid y se puede entrenar bien en escenas ilimitadas con diferentes trayectorias de cámara. Basándose en este estándar, crean deformación de perspectiva, una técnica básica de deformación espacial que se puede aplicar a cualquier trayectoria de cámara. Describen los criterios para una función de deformación adecuada para cualquier configuración de cámara en F2 – NeRF.
El principio fundamental de la deformación de la perspectiva es describir primero la posición de un punto p en 3D mediante la concatenación de las coordenadas 2D de las proyecciones de p en las imágenes de entrada. Luego, utilizando el análisis de componentes principales (PCA), mapee estas coordenadas 2D en un espacio subespacial 3D compacto. Demuestran empíricamente que la deformación de perspectiva propuesta es una generalización de la deformación actual de NDC y la deformación de esfera inversa a trayectorias arbitrarias. La deformación de perspectiva puede manejar trayectorias aleatorias mientras que podría degenerar automáticamente a estas dos funciones de deformación en escenas orientadas hacia adelante o escenas centradas en objetos de 360°.
También proporcionan un enfoque de subdivisión del espacio para emplear de manera adaptativa cuadrículas gruesas para las regiones de fondo y cuadrículas estrechas para las regiones de primer plano para lograr una deformación de la perspectiva en un marco NeRF basado en cuadrículas. Realizan pruebas exhaustivas en el conjunto de datos orientado hacia adelante ilimitado, los conjuntos de datos centrados en objetos 360 ilimitados y un nuevo conjunto de datos de trayectoria libre ilimitado. Las pruebas demuestran que F2 – NeRF genera imágenes de alta calidad en los tres conjuntos de datos con varios patrones de trayectoria usando la misma distorsión de perspectiva. Su solución supera los algoritmos NeRF estándar basados en cuadrículas en el nuevo conjunto de datos gratuito con trayectorias de cámara libres, y solo toma alrededor de 12 minutos para entrenar en una GPU 2080Ti.