Estás leyendo la publicación: Investigadores de IA de Google proponen un método basado en inteligencia artificial para aprender la generación de vistas perpetuas de escenas naturales únicamente a partir de fotos de una sola vista
Nuestra tierra es hermosa, con majestuosas montañas, impresionantes paisajes marinos y bosques tranquilos. Volando más allá de paisajes tridimensionales intrincadamente detallados, imagínese disfrutando de este esplendor como lo haría un pájaro. ¿Es posible que las computadoras aprendan a recrear este tipo de experiencia visual? Sin embargo, las técnicas actuales que combinan nuevas perspectivas de las fotos normalmente solo permiten una pequeña cantidad de movimiento de la cámara. La mayoría de las investigaciones anteriores solo pueden extrapolar el contenido de la escena dentro de un rango limitado de vistas correspondientes a un movimiento sutil de la cabeza.
En una investigación reciente de Google Research, Cornell Tech y UC Berkeley, presentaron una técnica para aprender a crear videos de vuelo sin restricciones de situaciones naturales comenzando con una vista única, donde esta capacidad se aprende a través de una colección de imágenes individuales, sin la necesidad para poses de cámara o incluso varias vistas de cada escena. Este método puede tomar una sola imagen y construir largas trayectorias de cámara de cientos de vistas nuevas con contenidos realistas y variados durante la prueba, a pesar de no haber visto nunca un video durante el entrenamiento. Este método contrasta con las técnicas de generación de vistas supervisadas más recientes, que exigen películas de vistas múltiples planteadas y exhiben un mejor rendimiento y calidad de síntesis.
El concepto fundamental es que aprenden gradualmente a generar flythroughs. Usando técnicas de predicción de profundidad de una sola imagen, primero calculan un mapa de profundidad desde una vista inicial, como la primera imagen en la figura a continuación. Después de representar la imagen en un nuevo punto de vista de la cámara, como se ilustra en el medio, usan ese mapa de profundidad para crear una nueva imagen y un mapa de profundidad desde ese punto de vista.
Esta imagen intermedia, sin embargo, tiene agujeros donde pueden ver más allá de las cosas en áreas que no eran visibles en la imagen original, lo cual es problemático. Además, es confuso porque los píxeles del cuadro anterior se estiran para mostrar los objetos más grandes, aunque ahora están más cerca de ellos.
Desarrollaron una red de refinamiento de imágenes neuronales para abordar estos problemas, que toma una imagen intermedia incompleta de baja calidad y produce una imagen completa de alta calidad y un mapa de profundidad asociado. Esta imagen sintetizada se puede utilizar como el nuevo punto de partida para repetir estas etapas. A medida que la cámara avanza más profundamente en el área, el sistema aprende automáticamente a construir escenarios adicionales, como montañas, islas y océanos. Este proceso se puede repetir tantas veces como se desee porque refinan la imagen y el mapa de profundidad.
Usando el conjunto de datos ACID, entrenaron esta técnica de síntesis de renderizar, refinar y repetir. Luego aplican esta técnica para generar varias perspectivas nuevas que ingresan a la escena a lo largo de la misma trayectoria de la cámara que el video real y comparan los cuadros renderizados con los cuadros de video reales correspondientes para extraer una señal de entrenamiento.
Con tal capacidad, se podrían crear nuevos tipos de material para videojuegos y experiencias de realidad virtual, como la oportunidad de relajarse mientras se vuela por un escenario natural infinito.
Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘InfiniteNature-Zero: aprendizaje de la generación de vistas perpetuas de escenas naturales a partir de imágenes individuales‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, código y proyecto.
Por favor no olvides unirte Nuestro subreddit de ML
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools