Este documento de IA presenta un enfoque basado en la difusión 3D para capturas casuales de NeRF, mejora los artefactos y mejora la geometría de la escena utilizando anteriores 3D locales y un…

Estás leyendo la publicación: Este documento de IA presenta un enfoque basado en la difusión 3D para capturas casuales de NeRF, mejora los artefactos y mejora la geometría de la escena utilizando anteriores 3D locales y un…

Los campos de radiación neuronal (NeRF) capturados casualmente suelen ser de menor calidad que la mayoría de las capturas que se muestran en los artículos de NeRF. El objetivo final de un usuario típico (por ejemplo, un aficionado) que captura un NeRF suele ser crear una ruta de vuelo a partir de un conjunto de vistas bastante diferente al de las primeras fotos obtenidas. Este cambio de punto de vista significativo entre las vistas de entrenamiento y representación a menudo muestra una geometría incorrecta y artefactos flotantes, como se ve en la Fig. 1a. Es una práctica estándar en programas como Polycam1 y Luma2 indicar a los usuarios que dibujen tres círculos a tres alturas diferentes mientras miran hacia adentro al elemento de interés. Esta técnica aborda estos artefactos instruyendo o alentando a los usuarios a grabar una imagen más.

Sin embargo, estos procedimientos de captura pueden llevar mucho tiempo y es posible que los usuarios deban prestar más atención a las instrucciones de captura complicadas para producir una captura sin artefactos. La creación de técnicas que permitan mejorar las representaciones de NeRF fuera de distribución es otro método para eliminar los artefactos de NeRF. La optimización de las poses de la cámara para abordar las poses ruidosas de la cámara, las incrustaciones de apariencia por imagen para manejar las variaciones en la exposición o las funciones de pérdida resistente para administrar los oclusores transitorios se han examinado en investigaciones anteriores como métodos potenciales para minimizar los artefactos. Aunque estas y otras metodologías superan los puntos de referencia convencionales, la mayoría de los estándares se basan en la medición de la calidad de la imagen en fotogramas retenidos de la secuencia de entrenamiento, lo que con frecuencia no es indicativo de la calidad visual de las nuevas vistas.

🔥 Recomendado:  ¿Qué es ETL? (Extraer, Transformar, Cargar) Metodología y casos de uso

La figura 1c demuestra cómo se deteriora el enfoque de Nerfacto a medida que se amplía la vista novedosa. En este estudio, los investigadores de Google Research y UCB sugieren (1) una técnica única para restaurar los NeRF adquiridos accidentalmente y (2) un nuevo enfoque para juzgar la calidad de un NeRF que representa con mayor precisión la calidad de la imagen renderizada desde ángulos inusuales. Se grabarán dos películas como parte de su protocolo de evaluación sugerido: una para entrenar un NeRF y la otra para la evaluación de la vista novedosa (Fig. 1b). Pueden calcular un conjunto de métricas en regiones visibles en las que anticipan que la escena se grabó correctamente en la secuencia de entrenamiento usando las imágenes de la segunda captura como datos reales (así como la profundidad y las normales recuperadas de una reconstrucción en todos los fotogramas) .

Registran un nuevo conjunto de datos con 12 escenas, cada una con dos secuencias de cámara, para entrenamiento y evaluación mientras se adhieren a este proceso de evaluación. También sugieren Nerfbusters, una técnica que tiene como objetivo mejorar la coherencia de la superficie, eliminar los flotadores y aclarar los artefactos de niebla en las grabaciones rutinarias de NeRF. Su enfoque emplea una red de difusión entrenada en datos 3D sintéticos para adquirir una geometría 3D local previa y aprovecha esto antes de admitir geometría realista durante la optimización NeRF. La geometría local es menos complicada, más independiente de categorías y reproducible que las anteriores 3D globales, lo que la hace apropiada para escenas aleatorias y redes de menor escala (un U-Net de 28 Mb simula efectivamente la distribución de todos los parches de superficie factibles).

🔥 Recomendado:  Una guía para emprendedores sobre la tecnología sin la que no puedes vivir

Dada esta anterior 3D local basada en datos, utilizan una nueva pérdida incondicional de muestreo de destilación de puntuación de densidad (DSDS) para regularizar el NeRF. Encuentran que esta técnica elimina los flotadores y hace que la geometría de la escena sea más nítida. Según su conocimiento, son los primeros en demostrar que un aprendizaje previo local en 3D puede mejorar los NeRF. Empíricamente, muestran que Nerfbusters logra un rendimiento de última generación para capturas casuales en comparación con otros regularizadores de geometría. Implementan su procedimiento de evaluación y el método Nerfbusters en el repositorio Nerfstudio de código abierto. El código y los datos se pueden encontrar en GitHub.