Un nuevo estudio de inteligencia artificial (IA) propone una técnica de combinación consciente de 3D con NeRF generativos

Estás leyendo la publicación: Un nuevo estudio de inteligencia artificial (IA) propone una técnica de combinación consciente de 3D con NeRF generativos

La combinación de imágenes es un método principal en la visión por computadora, una de las ramas más conocidas en el componente de inteligencia artificial. El objetivo es mezclar dos o más imágenes para producir una combinación única que incorpore los mejores aspectos de cada imagen de entrada. Este método se usa ampliamente en varios campos de aplicación, incluida la edición de imágenes, imágenes de computadora e imágenes médicas.

La combinación de imágenes se usa con frecuencia en actividades de inteligencia artificial, como la segmentación de imágenes, la identificación de objetos y la superresolución de imágenes. Es fundamental para mejorar la claridad de la imagen, que es esencial para muchos usos, como la robótica, la conducción automatizada y la vigilancia.

A lo largo de los años, se han creado varias técnicas de combinación de imágenes, que se basan principalmente en la deformación de una imagen a través de una transformación afín 2D. Sin embargo, estos enfoques no tienen en cuenta la discrepancia en las características geométricas 3D como la pose o la forma. La alineación 3D es mucho más difícil de lograr, ya que requiere inferir la estructura 3D desde una sola vista.

Para abordar este problema, se ha propuesto un método de combinación de imágenes compatible con 3D basado en campos de radiación neuronal generativos (NeRF).

El propósito de los NeRF generativos es aprender una estrategia para sintetizar imágenes en 3D utilizando solo colecciones de imágenes de vista única en 2D. Por lo tanto, los autores proyectan las imágenes de entrada a la representación de densidad de volumen de los NeRF generativos. Para reducir la dimensionalidad y la complejidad de los datos y las operaciones, la combinación consciente de 3D se realiza luego en los espacios de representación latente de estos NeRF.

🔥 Recomendado:  La técnica de investigación de palabras clave de 4 pasos para clasificar su sitio

Concretamente, el problema de optimización formulado considera el impacto del código latente en la síntesis de la imagen combinada. El objetivo es editar el primer plano en función de las imágenes de referencia y conservar el fondo de la imagen original. Por ejemplo, si las dos imágenes consideradas fueran rostros, el marco debe reemplazar las características y rasgos faciales de la imagen original por los de la imagen de referencia, manteniendo el resto sin cambios (pelo, cuello, años, entorno, etc.).

En la siguiente imagen se propone una descripción general de la arquitectura en comparación con las estrategias anteriores.

El primer método consiste en la única combinación 2D de dos imágenes 2D sin alineación. Se puede encontrar una mejora al admitir este método de combinación 2D con la alineación consciente de 3D con NeRF generativos. Para explotar aún más la información 3D, la arquitectura final infiere dos imágenes en los espacios de representación latente de NeRF en lugar del espacio de píxeles 2D.

La alineación 3D se logra mediante un codificador CNN, que infiere la pose de la cámara de cada imagen de entrada, y mediante el código latente de la propia imagen. Una vez que la imagen de referencia se gira correctamente para reflejar la imagen original, se calculan las representaciones NeRF de ambas imágenes. Por último, la matriz de transformación 3D (escala, traducción) se estima a partir de la imagen original y se aplica a la imagen de referencia para obtener una combinación semánticamente precisa.

Los resultados en imágenes no alineadas con diferentes poses y escalas se informan a continuación.

🔥 Recomendado:  Conozca a ReCo: una extensión de IA para modelos de difusión para permitir el control de regiones

Según los autores y sus experimentos, este método supera tanto a los métodos clásicos como a los basados ​​en el aprendizaje en cuanto a fotorrealismo y fidelidad a las imágenes de entrada. Además, al aprovechar las representaciones del espacio latente, este método puede desenredar los cambios geométricos y de color durante la combinación y crear resultados coherentes con la vista.

Este fue el resumen de un nuevo marco de IA para la combinación consciente de 3D con campos de radiación neuronal generativos (NeRF).

Si está interesado o desea obtener más información sobre este marco, puede encontrar a continuación un enlace al documento y la página del proyecto.