Estás leyendo la publicación: Conozca OnePose++: un novedoso marco de estimación de poses de objetos de una sola toma sin puntos clave de IA sin modelos CAD
Los desarrollos recientes en inteligencia artificial (IA) han sido verdaderamente notables, con avances rápidos en el aprendizaje profundo y otras técnicas de aprendizaje automático que conducen a avances en una amplia gama de aplicaciones. Una de las aplicaciones mencionadas se refiere a la estimación de la pose de un objeto.
La estimación de pose de objetos es un campo de la visión por computadora que tiene como objetivo determinar la ubicación y orientación de los objetos en una imagen o una secuencia de video. Es una tarea crucial para muchas aplicaciones, como la realidad aumentada, la robótica y la conducción autónoma. La estimación de la posición del objeto se puede realizar utilizando una variedad de técnicas, incluida la detección de puntos clave 2D y la reconstrucción 3D. El objetivo final de la estimación de la pose de un objeto es proporcionar una representación rica de los objetos en la escena, incluida su posición y orientación, forma, tamaño y textura.
La estimación de la pose del objeto es crucial para las interacciones inmersivas entre humanos y objetos en realidad aumentada (AR). El escenario AR exige la estimación de la pose de objetos domésticos arbitrarios en nuestra vida diaria. Sin embargo, la mayoría de los métodos existentes se basan en modelos CAD de objetos de alta fidelidad o requieren el entrenamiento de una red separada para cada categoría de objetos. La naturaleza específica de instancia o categoría de estos métodos limita su aplicabilidad en aplicaciones del mundo real.
Se han investigado técnicas recientes para superar estos problemas y limitaciones.
OnePose tiene como objetivo simplificar el proceso de estimación de poses de objetos para aplicaciones AR al eliminar la necesidad de modelos CAD y capacitación específica de categorías. En cambio, solo requiere una secuencia de video con poses de objetos anotados. OnePose utiliza un enfoque basado en la coincidencia de características que reconstruye nubes de puntos de objetos dispersos, establece correspondencias 2D-3D entre puntos clave y estima la pose del objeto. Sin embargo, este método tiene problemas con los objetos de baja textura, ya que las nubes de puntos completas son difíciles de reconstruir con una estructura a partir de movimiento (SfM) basada en puntos clave, lo que lleva a fallas en la estimación de poses.
Basado en los desafíos mencionados anteriormente, se ha desarrollado OnePose ++. Su arquitectura se presenta en la siguiente figura.
OnePose ++ aprovecha una canalización de coincidencia de características sin puntos clave en la parte superior de OnePose para manejar objetos de baja textura. En primer lugar, reconstruye la nube de puntos del objeto semidenso correcta a partir de fotografías de referencia. Luego resuelve la pose del objeto para las imágenes de prueba estableciendo correspondencias 2D-3D de forma gruesa a fina.
Se explota una versión adaptada del método LoFTR para lograr la coincidencia de características. Es una técnica semidensa sin puntos clave que funciona excepcionalmente bien para hacer coincidir pares de imágenes e identificar correspondencias en regiones con poca textura. Utiliza los centros de cuadrículas regulares en la imagen de la izquierda como puntos clave y encuentra coincidencias precisas de subpíxeles en la imagen de la derecha a través de un proceso de grueso a fino. Sin embargo, la naturaleza dependiente de dos vistas de LoFTR conduce a puntos clave inconsistentes y pistas de funciones incompletas. Como resultado, el método de coincidencia de características sin puntos clave no se puede usar directamente en OnePose para la estimación de la pose del objeto.
Para aprovechar ambos métodos, se ha desarrollado un sistema novedoso para adaptar la técnica de coincidencia sin punto clave para la estimación de pose de objetos de una sola toma. Los autores proponen una red de coincidencia 2D-3D de escasa a densa que establece de manera eficiente correspondencias 2D-3D precisas para la estimación de poses, aprovechando al máximo el diseño sin puntos clave de la arquitectura. Más específicamente, para adaptar mejor LoFTR a SfM, diseñaron un esquema de grueso a fino para una reconstrucción precisa y completa de objetos semidensos. La estructura gruesa a fina de LoFTR luego se desmonta y se integra en la tubería de reconstrucción. Además, la autoatención y la atención cruzada se utilizan para modelar las dependencias de largo alcance requeridas para la comparación 2D-3D robusta y la estimación de poses de objetos complejos del mundo real, que generalmente contienen patrones repetitivos o regiones de baja textura.
La siguiente figura ofrece una comparación entre el enfoque propuesto y OnePose.
Este fue el resumen de OnePose++, un novedoso marco de estimación de poses de objetos de una sola toma sin puntos clave de IA sin modelos CAD.
Si está interesado o desea obtener más información sobre este marco, puede encontrar un enlace al documento y la página del proyecto.