Conozca NerfDiff: un marco de trabajo de IA para habilitar la síntesis de múltiples vistas consistentes y de alta calidad a partir de una sola imagen

Estás leyendo la publicación: Conozca NerfDiff: un marco de trabajo de IA para habilitar la síntesis de múltiples vistas consistentes y de alta calidad a partir de una sola imagen

La síntesis de nuevas vistas es un tema candente en gráficos por computadora y aplicaciones de visión, como la realidad virtual y aumentada, la fotografía inmersiva y el desarrollo de réplicas digitales. El objetivo es generar vistas adicionales de un objeto o una escena a partir de puntos de vista iniciales limitados. Esta tarea es particularmente exigente porque las vistas recién sintetizadas deben considerar áreas ocluidas y regiones no vistas previamente.

Recientemente, los campos de radiación neuronal (NeRF) han demostrado resultados excepcionales en la generación de vistas novedosas de alta calidad. Sin embargo, NeRF se basa en una cantidad significativa de imágenes, que van desde decenas a cientos, para capturar la escena de manera efectiva, lo que la hace susceptible de sobreajustarse y carece de la capacidad de generalizar a nuevas escenas.

Los intentos anteriores han introducido modelos NeRF generalizables que condicionan la representación NeRF basada en la proyección de puntos 3D y características de imágenes extraídas. Estos enfoques producen resultados satisfactorios, particularmente para vistas cercanas a la imagen de entrada. Sin embargo, cuando las vistas de destino difieren significativamente de la entrada, estos métodos producen resultados borrosos. El desafío radica en resolver la incertidumbre asociada con grandes regiones invisibles en las vistas novedosas.

Un enfoque alternativo para abordar el problema de la incertidumbre en la síntesis de vistas de una sola imagen implica utilizar modelos generativos 2D que predicen nuevas vistas mientras condicionan la vista de entrada. Sin embargo, el riesgo de estos métodos es la falta de coherencia en la generación de imágenes con la estructura 3D subyacente.

🔥 Recomendado:  Informe de ingresos: Cómo gané más de un millón de dólares blogueando en 2016

Para ello se ha presentado una nueva técnica denominada NerfDiff. NerfDiff es un marco diseñado para sintetizar imágenes consistentes de múltiples vistas de alta calidad basadas en la entrada de una sola vista. En la siguiente figura se presenta una descripción general del flujo de trabajo.

El enfoque propuesto consta de dos etapas: entrenamiento y puesta a punto.

Durante la etapa de entrenamiento, un modelo NeRF basado en un triplano del espacio de la cámara y un modelo de difusión condicional (CDM) consciente de 3D se entrenan conjuntamente en una colección de escenas. La representación NeRF se inicializa utilizando la imagen de entrada en la etapa de ajuste fino. Luego, los parámetros del modelo NeRF se ajustan en función de un conjunto de imágenes virtuales generadas por el CDM, que está condicionado a las salidas generadas por NeRF. Sin embargo, una estrategia de ajuste fino sencilla que optimiza los parámetros NeRF directamente usando las salidas CDM produce representaciones de baja calidad debido a la inconsistencia de múltiples vistas de las salidas CDM. Para abordar este problema, los investigadores proponen la destilación guiada por NeRF, un proceso alternativo que actualiza la representación de NeRF y guía el proceso de difusión de múltiples vistas. Específicamente, este enfoque permite la resolución de la incertidumbre en la síntesis de vista de una sola imagen aprovechando la información adicional proporcionada por el CDM. Simultáneamente, el modelo NeRF guía al CDM para garantizar la consistencia de múltiples vistas durante el proceso de difusión.

A continuación se informan algunos de los resultados obtenidos a través de NerfDiff (donde NGD significa destilación guiada por Nerf).

🔥 Recomendado:  Tu guía definitiva para Twitter Spaces en 2023

Este fue el resumen de NerfDiff, un marco de IA novedoso que permite vistas múltiples consistentes y de alta calidad desde una sola imagen de entrada. Si está interesado, puede obtener más información sobre esta técnica en los enlaces a continuación.