Estás leyendo la publicación: Simplifique la edición de objetos 3D con Vox-E: un marco de inteligencia artificial (IA) para la edición Voxel guiada por texto de objetos 3D
Los modelos tridimensionales (3D) se utilizan ampliamente en varios campos, como la animación, los juegos, la realidad virtual y el diseño de productos. La creación de modelos 3D es una tarea compleja que requiere mucho tiempo y requiere amplios conocimientos y habilidades de software especializadas. Si bien se puede acceder fácilmente a los modelos prediseñados desde las bases de datos en línea, personalizarlos para que se ajusten a una visión artística específica cae dentro del mismo proceso complicado de creación de modelos 3D que, como ya se mencionó, exige experiencia especializada en software de edición 3D. Recientemente, la investigación ha demostrado el poder expresivo de las representaciones basadas en campos neuronales, como NeRF, para capturar detalles finos y permitir esquemas de optimización efectivos a través de una representación diferenciable. Como resultado, su aplicabilidad se ha ampliado para varias tareas de edición.
Sin embargo, la mayor parte de la investigación en esta área se ha centrado en manipulaciones solo de apariencia, que alteran la textura y el estilo del objeto, o en la edición geométrica a través de correspondencias con una representación de malla explícita. Desafortunadamente, estos métodos aún requieren que los usuarios coloquen puntos de control en la representación de la malla y no permiten agregar nuevas estructuras o modificar significativamente la geometría del objeto.
Por lo tanto, se ha desarrollado un nuevo enfoque de edición de vóxeles, denominado Vox-E, para abordar los problemas mencionados anteriormente. La descripción general de la arquitectura se ilustra en la siguiente figura.
Este marco se enfoca en permitir ediciones de objetos más localizadas y flexibles guiadas únicamente por indicaciones textuales, que pueden abarcar modificaciones geométricas y de apariencia. Para lograr esto, los autores explotan modelos de difusión 2D previamente entrenados para modificar imágenes y hacer coincidir descripciones textuales específicas. La pérdida de destilación de puntuación (SDS) se ha adaptado para la generación 3D basada en texto incondicional y se ha utilizado junto con técnicas de regularización. El proceso de optimización en el espacio 3D se regulariza acoplando dos campos volumétricos. Este enfoque le da al sistema más flexibilidad para cumplir con la guía de texto mientras se preserva la apariencia y la geometría de entrada.
En lugar de utilizar campos neuronales, Vox-E se basa en ReLU Fields, que son más ligeros que los enfoques basados en NeRF y no se basan en redes neuronales. Los campos ReLU representan la escena como una cuadrícula de vóxeles donde cada vóxel contiene características aprendidas. Esta estructura de cuadrícula explícita permite tiempos de reconstrucción y renderización más rápidos, así como un acoplamiento volumétrico estrecho entre los campos volumétricos que representan el objeto 3D antes y después de la edición deseada. Vox-E logra esto a través de una pérdida de correlación volumétrica novedosa sobre las características de densidad.
Para refinar aún más la extensión espacial de las ediciones, los autores explotan mapas de atención cruzada 2D para capturar regiones asociadas con la edición de destino y transformarlas en cuadrículas volumétricas. La premisa detrás de este enfoque es que, si bien las características internas 2D independientes de los modelos generativos pueden ser ruidosas, unificarlas en una sola representación 3D permite una mejor destilación del conocimiento semántico. Estas cuadrículas de atención cruzada 3D son necesarias para que un algoritmo de segmentación volumétrica binaria divida el volumen reconstruido en regiones editadas y no editadas. Este proceso permite que el marco combine las características de las cuadrículas volumétricas y conserve mejores áreas que no deberían verse afectadas por la edición textual.
Los resultados de este enfoque se comparan con otras técnicas del estado del arte. Algunas muestras tomadas de la obra mencionada se muestran a continuación.
Este fue el resumen de Vox-E, un marco de IA para la edición de vóxeles guiada por texto de objetos 3D.
Si está interesado o desea obtener más información sobre este trabajo, puede encontrar un enlace al documento y la página del proyecto.