Este documento de IA propone un modelo de difusión latente para 3D (LDM3D) que genera datos de imágenes y mapas de profundidad a partir de un mensaje de texto dado

Estás leyendo la publicación: Este documento de IA propone un modelo de difusión latente para 3D (LDM3D) que genera datos de imágenes y mapas de profundidad a partir de un mensaje de texto dado

En el campo de la IA generativa, la visión por computadora ha logrado grandes avances en los últimos años. Stable Diffusion ha transformado la producción de contenido en generación de imágenes al ofrecer software gratuito para producir imágenes aleatorias RGB de alta fidelidad a partir de indicaciones de texto. Esta investigación sugiere un modelo de difusión latente para 3D (LDM3D) basado en Stable Diffusion v1.4. A diferencia del modelo anterior, la figura 1 ilustra cómo LDM3D puede producir mapas de profundidad y datos de imágenes a partir de un mensaje de texto determinado. Los usuarios pueden crear representaciones RGBD completas de indicaciones de texto, dándoles vida en perspectivas vibrantes y fascinantes de 360°. En un conjunto de datos de alrededor de 4 millones de tuplas que incluía una imagen RGB, un mapa de profundidad y una descripción, se refinó su modelo LDM3D.

Para crear este conjunto de datos se utilizó una parte del conjunto de datos LAION-400M, un gran conjunto de datos de leyendas de imágenes con más de 400 millones de emparejamientos de leyendas de imágenes. El modelo de estimación de profundidad DPT-Large, que ofrece estimaciones de profundidad relativa extremadamente precisas para cada píxel de una imagen, se utilizó para crear los mapas de profundidad utilizados para el ajuste fino. Era esencial emplear mapas de profundidad correctos para crear vistas de 360° que fueran realistas e inmersivas y permitieran a los usuarios experimentar sus indicaciones de texto con gran detalle. Investigadores de Intel Labs y Blockade Labs crean sobre LDM3D para desarrollar DepthFusion, una aplicación que aprovecha las fotos RGB 2D y los mapas de profundidad iniciados para calcular una proyección de 360° usando TouchDesigner, lo que demuestra las posibilidades de LDM3D.

🔥 Recomendado:  ¿Qué es la IA emocional y por qué es importante?

DepthFusion tiene el poder de cambiar por completo la forma en que las personas interactúan con el material digital. Un marco flexible llamado TouchDesigner hace posible la creación de experiencias multimedia interactivas y envolventes. Su programa utiliza el potencial creativo de touchdesigner para producir panoramas fascinantes de 360° que representan vívidamente indicaciones de texto. Con la ayuda de DepthFusion, los usuarios ahora pueden experimentar sus indicaciones de texto de una manera que antes no se podía concebir, ya sea una descripción de un bosque sereno, un paisaje urbano bullicioso o un universo de ciencia ficción. Esta tecnología puede revolucionar potencialmente varios sectores, incluidos los juegos, el entretenimiento, el diseño y la arquitectura.

Han hecho tres contribuciones diferentes en general. (1) Sugieren LDM3D, un modelo de difusión novedoso que, ante un aviso de texto, genera imágenes RGBD (imágenes RGB con mapas de profundidad coincidentes). (2) Construyeron DepthFusion, un programa que usa fotos RGBD producidas por LDM3D para brindar experiencias inmersivas de vista de 360°. (3) Evalúan la efectividad de las fotos RGBD producidas y las películas inmersivas de vista 360 a través de estudios integrales. El estudio presenta LDM3D, un modelo de difusión de vanguardia que produce imágenes RGBD a partir de señales de texto. También crearon DepthFusion, un programa que utiliza las imágenes RGBD producidas por TouchDesigner para proporcionar experiencias de visualización 360 inmersivas e interactivas para ilustrar aún más las posibilidades de LDM3D.

Los hallazgos de este estudio podrían alterar fundamentalmente la forma en que las personas interactúan con el material digital, transformando todo, desde el entretenimiento y los juegos hasta la arquitectura y el diseño. Las contribuciones de este trabajo abren nuevas oportunidades para la investigación de la visión artificial y la IA generativa multivisión. Están interesados ​​en cómo se desarrollará más esta área y quieren que la comunidad se beneficie del trabajo que se muestra.