Estás leyendo la publicación: Conozca NeROIC: un marco de inteligencia artificial (IA) eficiente para la adquisición de objetos de imágenes en la naturaleza
El aprendizaje automático es cada vez más importante en el mundo de la tecnología. A medida que las computadoras se vuelven más avanzadas y poderosas, pueden procesar datos más rápido y con mayor precisión que nunca. Los desarrollos recientes en el aprendizaje automático han aumentado el interés en el uso de redes neuronales basadas en coordenadas que parametrizan las propiedades físicas de escenas u objetos en el espacio y el tiempo para resolver problemas de computación visual. Estos métodos, conocidos como campos neuronales, se han utilizado con éxito para sintetizar formas 3D, animación del cuerpo humano, reconstrucción 3D y estimación de poses.
El modelo Neural Radiance Fields (NeRF), que aprende a representar la opacidad local y el resplandor dependiente de la vista de una escena estática a partir de imágenes calibradas dispersas, es uno de los trabajos más recientes que utiliza campos neuronales. Este modelo permite una síntesis de vista novedosa (NVS) de alta calidad. Si bien la calidad y las capacidades de NeRF han mejorado mucho (p. ej., con respecto al contenido móvil o no rígido), todavía hay algunos requisitos no triviales que se deben cumplir. Por ejemplo, para sintetizar vistas novedosas de un objeto, se deben observar y fijar las condiciones de iluminación y de fondo, y las imágenes o secuencias de video de múltiples vistas se deben grabar en una sola sesión.
Por ejemplo, se pueden encontrar en línea innumerables imágenes con los mismos artículos, como muebles, juguetes o vehículos. La estructura de alta fidelidad y la apariencia de estos objetos deben capturarse aislándolos de su entorno. La segmentación de tales objetos es un requisito previo para aplicaciones como digitalizar un objeto de las imágenes y combinarlo con un nuevo fondo. Sin embargo, los fondos, la configuración de la iluminación y la configuración de la cámara que se utilizan para capturar fotografías individuales de los objetos de estas colecciones suelen ser muy variables. Por lo tanto, las técnicas de digitalización de objetos creadas para datos de entornos controlados son inapropiadas para este tipo de configuración en estado salvaje.
Un enfoque novedoso para la representación neuronal de objetos de colecciones de imágenes en línea (NeROIC) se ha propuesto para abordar las cuestiones antes mencionadas. El método se basa en NeRF y tiene varios componentes esenciales que permiten la captura de alta fidelidad de imágenes escasas tomadas en circunstancias muy diferentes, como se ve con frecuencia en las imágenes en línea. Muchas fotos, incluso con los mismos objetos, generalmente se pueden tomar en diversas condiciones de iluminación, cámara, entorno y pose, lo que en la mayoría de los casos hace que los enfoques basados en NeRF tengan problemas.
A continuación se muestra una descripción general de la técnica propuesta.
Una colección escasa de fotografías que muestran un elemento (o variaciones del mismo objeto) en varios entornos y un conjunto de máscaras de primer plano que definen el área del objeto constituyen las entradas. El modelo calcula la geometría del objeto en el primer paso aprendiendo un campo de densidad que muestra dónde hay contenido físico. En este paso se utilizan dos funciones MLP para contabilizar por separado los datos de radiación estática y transitoria y para proporcionar supervisión basada en imágenes. Los parámetros de la cámara y las predicciones de postura se calculan aún más para refinar la entrada aproximada.
La geometría adquirida se finaliza en el segundo paso. Aquí se extraen las superficies normales del objeto y se ajustan los parámetros de iluminación para volver a renderizar el objeto en varios escenarios de iluminación. Las normales de superficie se utilizan luego como supervisión en el paso final.
La red de representación comparte la misma estructura que la primera etapa en la mayoría de los componentes, a excepción de la rama de predicción de color estática. En este caso, se diseña una estructura MLP de 4 capas para generar las superficies finales normales, el color base, la especularidad y el brillo.
Algunos resultados del enfoque propuesto están disponibles a continuación en la figura.
Este fue el resumen de NeROIC, un marco eficiente para la adquisición de objetos de imágenes en la naturaleza. Si estás interesado, puedes encontrar más información en los siguientes enlaces.