Estás leyendo la publicación: Investigadores de inteligencia artificial de Apple proponen GAUDI: un modelo generativo que captura distribuciones de escenas 3D complejas y realistas
Se necesita desesperadamente el progreso en los modelos generativos 3D si se quiere que los sistemas de aprendizaje comprendan y construyan espacios 3D. Los investigadores honran a Antoni Gaud, cuyo comentario, “La invención continúa continuamente a través de las personas”, con el nombre de su enfoque, como se puede ver en el título del artículo. Para mostrar vistas de escenas muestreadas de la distribución aprendida, están interesados en modelos generativos que pueden registrar la distribución de escenas 3D. Tales extensiones de modelos generativos para problemas de inferencia condicional podrían mejorar significativamente una variedad de tareas de aprendizaje automático y visión por computadora. Por ejemplo, puede ser útil una descripción escrita o una muestra de posibles escenarios completados.
Una red adversa generativa (GAN), una función paramétrica que ingresa las coordenadas de un punto en el espacio 3D y la postura de la cámara, y devuelve un escalar de densidad y un valor RGB para ese punto 3D, se ha utilizado recientemente en el modelado generativo para objetos o escenas 3D. . Al colocar los puntos 3D consultados a través de la ecuación de representación de volumen y proyectarlos en cualquier vista de cámara 2D, se pueden crear imágenes a partir del campo de radiación que creó el modelo. Además, estos modelos serían beneficiosos en SLAM, el aprendizaje por refuerzo basado en modelos o el desarrollo de contenido 3D.
A pesar de ser efectivos en conjuntos de datos 3D pequeños o simples (como objetos individuales o una cantidad limitada de escenas de interiores), estos conjuntos de datos tienen un sistema de coordenadas canónicas. Las GAN son difíciles de entrenar con datos para los que no existe un sistema de coordenadas canónicas, como es el caso de las escenas 3D, y sufren patologías de entrenamiento como el colapso de modo. Además, cuando se modelan distribuciones de objetos 3D, con frecuencia se cree que las posturas de la cámara se muestrean a partir de una distribución compartida entre objetos (es decir, generalmente sobre SO(3)). Sin embargo, este no es el caso cuando se modelan distribuciones de escenarios.
Esto se debe a la dependencia independiente de cada escena de la distribución de posturas de cámara viables (basadas en la estructura y ubicación de las paredes y otros objetos). Además, esta distribución podría incluir todas las posturas del grupo SE(3) para escenarios. Este hecho se vuelve más evidente cuando consideran las posturas de la cámara como una ruta a través de la escena. Cada trayectoria en GAUDI, una colección de fotos posadas de una escena 3D, se convierte en una representación latente que desacopla la trayectoria de la cámara del campo de radiación, como una escena 3D. Identifican estas representaciones latentes viéndolas como parámetros libres y presentando un problema de optimización en el que el objetivo de reconstrucción optimiza la representación latente para cada trayectoria.
Este sencillo método de entrenamiento puede manejar miles de combinaciones de trayectoria. También es sencillo administrar una cantidad grande y variable de vistas para cada trayectoria cuando la representación latente de cada trayectoria se interpreta como un parámetro libre en lugar de necesitar una arquitectura de codificador compleja para agrupar una gran cantidad de vistas. Desarrollan un modelo generativo utilizando el conjunto de representaciones latentes después de optimizarlas para una distribución empírica observada de trayectorias. El modelo puede crear escenas interpolando dentro del espacio latente en el caso incondicional, ya que puede muestrear completamente los campos de radiación de la distribución previa que ha aprendido. El caso condicional permite la generación de campos de radiación compatibles con las variables condicionales accesibles al modelo en el momento del entrenamiento (como imágenes y mensajes de texto).
Estas contribuciones se pueden resumir de la siguiente manera:
- Escalan la producción de escenas 3D a miles de escenas de interiores con cientos de miles de fotos sin experimentar colapso de modo o problemas de orientación canónica durante el entrenamiento.
- Para identificar representaciones latentes que se desenreden y describan simultáneamente un campo de radiación y las posiciones de la cámara, desarrollaron un objetivo único de optimización de eliminación de ruido.
- Usando una variedad de conjuntos de datos, el método logra un rendimiento de generación de vanguardia.
- Este método admite configuraciones de generación incondicionales y condicionales, según el texto o las imágenes.
La implementación del código está disponible en el repositorio GitHub de Apple.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘GAUDI: un arquitecto neuronal para la generación de escenas 3D inmersivas‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y enlace github
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools