Estás leyendo la publicación: Aprendizaje profundo para objetos profundos: ZoeDepth es un modelo de IA para la estimación de profundidad de múltiples dominios
¿Alguna vez te has encontrado con ilusiones en las que un niño en la imagen parece más alto y más grande que un adulto? sala de ames La ilusión es una famosa que involucra una habitación que tiene forma de trapezoide, con una esquina de la habitación más cerca del espectador que la otra esquina. Cuando lo miras desde cierto punto, los objetos de la habitación parecen normales, pero a medida que te mueves a una posición diferente, todo cambia de tamaño y forma, y puede ser complicado entender qué está cerca de ti y qué no.
Sin embargo, esto es un problema para nosotros los humanos. Normalmente, cuando miramos una escena, estimamos la profundidad de los objetos con bastante precisión si no hay trucos de ilusión. Las computadoras, por otro lado, no son tan exitosas en la estimación de profundidad, ya que sigue siendo un problema fundamental en la visión por computadora.
La estimación de profundidad es el proceso de determinar la distancia entre la cámara y los objetos en la escena. Los algoritmos de estimación de profundidad toman una imagen o una secuencia de imágenes como entrada y generan un mapa de profundidad correspondiente o una representación 3D de la escena. Esta es una tarea importante ya que necesitamos comprender la profundidad de la escena en numerosas aplicaciones como robótica, vehículos autónomos, realidad virtual, realidad aumentada, etc. Por ejemplo, si desea tener un automóvil de conducción autónoma seguro, comprender la distancia a el coche delante de usted es crucial para ajustar la velocidad de conducción.
Hay dos ramas de los algoritmos de estimación de profundidad, la estimación de profundidad métrica (MDE), donde el objetivo es estimar la distancia absoluta, y la estimación de profundidad relativa (RDE), donde el objetivo es estimar la distancia relativa entre los objetos en la escena.
Los modelos MDE son útiles para el mapeo, la planificación, la navegación, el reconocimiento de objetos, la reconstrucción 3D y la edición de imágenes. Sin embargo, el rendimiento de los modelos MDE puede deteriorarse cuando se entrena un solo modelo en varios conjuntos de datos, especialmente si las imágenes tienen grandes diferencias en la escala de profundidad (p. ej., imágenes de interiores y exteriores). Como resultado, los modelos MDE actuales a menudo sobreajustan conjuntos de datos específicos y no se generalizan bien a otros conjuntos de datos.
Los modelos RDE, por otro lado, utilizan la disparidad como medio de supervisión. Las predicciones de profundidad en RDE solo son coherentes entre sí en los marcos de imagen y se desconoce el factor de escala. Esto permite que los métodos RDE se entrenen en un conjunto diverso de escenas y conjuntos de datos, incluso películas en 3D, lo que puede ayudar a mejorar la generalización del modelo en todos los dominios. Sin embargo, la contrapartida es que la profundidad prevista en RDE no tiene un significado métrico, lo que limita sus aplicaciones.
¿Qué pasaría si combináramos estos dos enfoques? Podemos tener un modelo de estimación de profundidad que puede generalizarse bien a diferentes dominios y al mismo tiempo mantener una escala métrica precisa. Esto es exactamente lo que ZoeDepth ha logrado.
ZoeDepth es un marco de dos etapas que combina los enfoques MDE y RDE. La primera etapa consiste en una estructura de codificador-decodificador que está entrenada para estimar profundidades relativas. Este modelo está entrenado en una gran variedad de conjuntos de datos, lo que mejora la generalización. La segunda etapa agrega componentes encargados de estimar la profundidad métrica que se agregan como una cabeza adicional.
El diseño del cabezal métrico utilizado en este enfoque se basa en un método denominado módulo de contenedores métricos, que estima un conjunto de valores de profundidad para cada píxel en lugar de un único valor de profundidad. Esto permite que el modelo capture un rango de posibles valores de profundidad para cada píxel, lo que puede ayudar a mejorar su precisión y solidez. Esto permite una medición de profundidad precisa que considera la distancia física entre los objetos en la escena. Estos jefes están entrenados en conjuntos de datos de profundidad métrica y son livianos en comparación con la primera etapa.
Cuando se trata de inferencia, un modelo clasificador selecciona el cabezal apropiado para cada imagen utilizando funciones de codificador. Esto permite que el modelo se especialice en estimar la profundidad para dominios específicos o tipos de escenas mientras se beneficia del entrenamiento previo de profundidad relativa. Al final, obtenemos un modelo flexible que se puede utilizar en múltiples configuraciones.