▷ Conozca Make-it-3D: un marco de inteligencia artificial (IA) para la generación de objetos 3D de alta fidelidad a partir de una sola imagen

Estás leyendo la publicación: Conozca Make-it-3D: un marco de inteligencia artificial (IA) para la generación de objetos 3D de alta fidelidad a partir de una sola imagen

La imaginación es un mecanismo poderoso de la humanidad. Cuando se les presenta una sola imagen, los humanos tienen la notable capacidad de imaginar cómo se vería el objeto representado desde una perspectiva diferente. Si bien esta operación parece simple para nuestros cerebros, es bastante desafiante para la visión por computadora y los modelos de aprendizaje profundo. De hecho, generar objetos 3D a partir de una sola imagen es una tarea compleja debido a la limitada información disponible desde un único punto de vista.

Se han propuesto varios enfoques con esta intención, incluidos los efectos fotográficos en 3D y la reconstrucción en 3D de vista única con representación neuronal. Sin embargo, estos métodos tienen limitaciones en la reconstrucción de geometría fina y la representación de vistas grandes. Otras técnicas implican proyectar la imagen de entrada en el espacio latente de redes generativas conscientes de 3D preentrenadas. Aún así, estas redes a menudo se limitan a clases de objetos específicas y no pueden manejar objetos 3D generales. Además, construir un conjunto de datos diverso para estimar vistas novedosas o un poderoso modelo de base 3D para objetos generales es actualmente un desafío insuperable.

Las imágenes están ampliamente disponibles, mientras que los modelos 3D siguen siendo escasos. Los avances recientes en los modelos de difusión, como Midjourney o Stable Diffusion, han permitido un progreso notable en la síntesis de imágenes 2D. Curiosamente, los modelos de difusión de imágenes bien entrenados pueden generar imágenes desde diferentes puntos de vista, lo que sugiere que ya han asimilado el conocimiento 3D.

Sobre la base de esta observación, el documento presentado en este artículo explora la posibilidad de aprovechar este conocimiento 3D implícito en un modelo de difusión 2D para reconstruir objetos 3D. Para este propósito, se ha propuesto un enfoque de dos etapas, denominado Make-It-3D, para generar contenido 3D de alta calidad a partir de una sola imagen utilizando una difusión previa.

La descripción general de la arquitectura se presenta a continuación.

Durante la primera etapa, la difusión previa ayuda a mejorar el campo de radiación neuronal (NeRF) mediante el uso de muestreo por destilación de puntuación (SDS). Además, la supervisión de la vista de referencia se utiliza como restricción para la optimización. A diferencia de los enfoques anteriores de texto a 3D que se centran en descripciones textuales, Make-it-3D prioriza la fidelidad del modelo 3D a la imagen de referencia, ya que el objetivo es la creación 3D basada en imágenes. Sin embargo, mientras que los modelos 3D generados con SDS se alinean bien con las descripciones textuales, a menudo no se alinean fielmente con las imágenes de referencia, que no capturan todos los detalles del objeto. Para superar este problema, se le pide al modelo que maximice la similitud entre la referencia y la nueva representación de la vista eliminada por un modelo de difusión. Como las imágenes contienen inherentemente más información relacionada con la geometría que las descripciones textuales, la profundidad de la imagen de referencia se puede proporcionar como una geometría adicional antes de aliviar la ambigüedad de la optimización NeRF con respecto a la forma.

La etapa inicial del proceso de generación del modelo 3D produce un modelo aproximado con una geometría razonable. Aún así, su apariencia a menudo carece de la calidad de la imagen de referencia, con texturas demasiado suaves y colores saturados. Como resultado, es necesario mejorar aún más el realismo del modelo reduciendo la disparidad entre el modelo aproximado y la imagen de referencia. Como la textura es más importante que la geometría para el renderizado de alta calidad, la segunda etapa se centra en la mejora de la textura manteniendo la geometría de la primera etapa. Un refinamiento final implica el uso de texturas reales en el suelo para las regiones visibles en la imagen de referencia obtenida del mapeo del modelo NeRF y texturas para nubes de puntos y vóxeles.

Los resultados de este enfoque se comparan con otras técnicas del estado del arte. Algunas muestras tomadas de la obra mencionada se muestran a continuación.

Este fue el resumen de Make-it-3D, un marco de IA para la generación de objetos 3D de alta fidelidad a partir de una sola imagen.

Si está interesado o desea obtener más información sobre este trabajo, puede encontrar un enlace al documento y la página del proyecto.

Conozca Make-it-3D: un marco de inteligencia artificial (IA) para la generación de objetos 3D de alta fidelidad a partir de una sola imagen

Otros temas interesantes: