Estás leyendo la publicación: El último artículo sobre inteligencia artificial (IA) de Alibaba propone VQRF, un nuevo marco de compresión diseñado para campos de radiación volumétrica como DVGO y Plenoxels.
Debido a su uso potencial en varias aplicaciones de Realidad Virtual y Realidad Aumentada, el tema es cada vez más importante. Cuando se le da una colección de fotos tomadas desde varios puntos de vista con posturas de cámara conocidas, la síntesis de vista novedosa busca lograr una representación fotorrealista para una escena 3D en perspectivas desconocidas. Los campos de radiación neuronal (NeRF) han modelado y renderizado con éxito escenas 3D utilizando redes neuronales profundas. Estas redes están entrenadas para mapear cada posición 3D dada una dirección de visualización a su densidad de volumen y color dependiente de la vista asociada utilizando técnicas de representación volumétrica.
Debido a que el proceso de representación depende de la selección de un número considerable de puntos para el muestreo y su ejecución a través de una red complicada, existe un costo informático considerable durante el entrenamiento y la inferencia. Las estructuras basadas en vóxeles pueden aumentar considerablemente la eficiencia del entrenamiento y la inferencia, como lo demuestran las mejoras recientes después de la reconstrucción de los campos de radiación. Estos métodos de campo de radiación volumétrica a menudo almacenan características y recuperan puntos de muestreo (como características de color y densidades de volumen) mediante una interpolación trilineal efectiva sin redes neuronales. Tienen una pequeña red neuronal instalada.
Reemplazaron redes intrincadas. Sin embargo, el empleo de representaciones volumétricas siempre implica grandes costos de almacenamiento, como los más de 100 terabytes necesarios para representar la escena en la Figura 1, lo que hace que su uso en escenarios del mundo real sea poco práctico. Las cuadrículas Voxel tienen un problema de almacenamiento que debe resolverse mientras se preserva la calidad del renderizado. Para comprender mejor las características de los modelos de cuadrícula, se estimó la distribución de las puntuaciones de importancia de los vóxeles. Solo el 10 % de los vóxeles contribuyen con más del 99 % de las puntuaciones de importancia de un modelo de cuadrícula, lo que muestra que el modelo tiene mucha redundancia.
El método que proporcionan para comprimir los campos de radiación volumétrica permite una disminución del almacenamiento del 100 % con respecto a los modelos de cuadrícula originales, al mismo tiempo que mantiene una calidad de representación comparable. La figura 2 muestra una ilustración del marco. El marco sugerido no es específico de ninguna arquitectura, sino extremadamente amplio. El marco comprende tres procesos: recorte de vóxeles, cuantificación de vectores y posprocesamiento. Los vóxeles menos significativos que dominan el tamaño del modelo y hacen una contribución mínima a la representación final se eliminan mediante la poda de vóxeles. Utilizando una medida de tasa de puntuación acumulada, presentan una técnica de selección de umbral de poda adaptativa, lo que hace que la estrategia de poda sea aplicable a varias escenas o modelos base.
Al crear una cuantificación de vectores consciente de la importancia con una estrategia de optimización efectiva, proponen codificar características de vóxel significativas en un libro de códigos compacto para reducir aún más el tamaño del modelo. Un mecanismo de ajuste conjunto anima a los modelos comprimidos a acercarse a la calidad de renderizado de los modelos originales. Finalmente, realizan un rápido paso de postprocesado para obtener un modelo con un bajo coste de almacenamiento. Como se ve en la Figura 1, por ejemplo, un modelo con un costo de almacenamiento de 104 MB y un PSNR de 32,66 puede comprimirse en un modelo con un costo de 1,05 MB y una pérdida mínima de calidad visual (PSNR de 32,65).
Para validar el marco de compresión propuesto, llevan a cabo experimentos profundos e investigaciones prácticas que demuestran la eficacia y generalización de la tubería de compresión propuesta en una amplia variedad de enfoques volumétricos y diferentes circunstancias.