Una nueva investigación de IA propone VoxFormer: un marco de trabajo de finalización de escenas semánticas 3D basado en transformadores

Estás leyendo la publicación: Una nueva investigación de IA propone VoxFormer: un marco de trabajo de finalización de escenas semánticas 3D basado en transformadores

Comprender una imagen 3D holística es un desafío importante para que los vehículos autónomos (AV) la perciban. Influye directamente en actividades posteriores como la planificación y la creación de mapas. La falta de resolución del sensor y la observación parcial provocada por el pequeño campo de visión y las oclusiones dificultan la obtención de información 3D precisa y completa sobre el entorno real. Se ofreció la finalización semántica de la escena (SSC), un método para inferir conjuntamente la geometría y la semántica de toda la escena a partir de observaciones dispersas, para resolver los problemas. La reconstrucción de escenas para áreas visibles y la alucinación de escenas para secciones obstruidas son dos subtareas que una solución SSC debe manejar simultáneamente. Los humanos fácilmente razonan sobre la geometría y la semántica de la escena basándose en observaciones imperfectas, lo que respalda este esfuerzo.

Sin embargo, las técnicas modernas de SSC aún están por debajo de la percepción humana en escenarios de conducción en términos de rendimiento. LiDAR es considerado como una modalidad principal por la mayoría de los sistemas SSC actuales para proporcionar mediciones geométricas 3D precisas. Sin embargo, las cámaras son más asequibles y ofrecen mejores indicaciones visuales del entorno de conducción, pero los sensores LiDAR son más costosos y menos portátiles. Esto inspiró la investigación de soluciones SSC basadas en cámaras, que inicialmente se presentaron en el innovador trabajo de MonoScene. MonoScene utiliza una proyección de características densas para convertir entradas de imágenes 2D a 3D. Sin embargo, dicha proyección proporciona características 2D de vóxeles vacíos u ocluidos de las áreas visibles. Un vóxel vacío cubierto por un automóvil, por ejemplo, recibirá sin embargo la característica visual del automóvil.

🔥 Recomendado:  5 desafíos de contenido interactivo que todo vendedor debe conocer

Como resultado, las funciones 3D creadas tienen un rendimiento deficiente en cuanto a la integridad geométrica y la segmentación semántica, su participación. VoxFormer, a diferencia de MonoScene, ve la atención cruzada de 3D a 2D como una representación de consultas dispersas. El diseño sugerido está inspirado en dos realizaciones: (1) escasez en el espacio 3-D: dado que una parte significativa del espacio 3-D suele estar vacía, una representación escasa en lugar de una densa es, sin duda, más efectiva y escalable. (2) reconstrucción antes de la alucinación: la información 3D de la región no visible se puede completar mejor utilizando las áreas visibles reconstruidas como puntos de partida.

En resumen, hicieron las siguientes contribuciones a este esfuerzo:

• Un sistema de dos etapas de última generación que transforma las fotos en una escena semántica voxelizada en 3D completa.

• Una innovadora red de propuesta de consultas 2D basada en convolución que produce consultas confiables desde la profundidad de la imagen.

• Un transformador único que produce una representación de escena 3D completa y es similar al codificador automático enmascarado (MAE).

• Como se ve en la Fig. 1(b), VoxFormer avanza en el SSC basado en cámaras de última generación.

VoxFormer consta de dos etapas: la etapa 1 sugiere un conjunto escaso de vóxeles ocupados y la etapa 2 completa las representaciones de la escena a partir de las recomendaciones de la etapa 1. La etapa 1 es independiente de la clase, mientras que la etapa 2 es específica de la clase. Como se ilustra en la Fig. 1(a), la etapa 2 se basa en un diseño único tipo MAE de disperso a denso. En particular, la etapa 1 contiene una red de propuesta de consulta 2D liviana basada en CNN que reconstruye la geometría de la escena utilizando la profundidad de la imagen. Luego, en todo el campo de visión, sugiere una colección escasa de vóxeles utilizando consultas de vóxeles preestablecidas que se pueden aprender.

🔥 Recomendado:  Cómo ocultar una pestaña personalizada vacía en Magento 2

Primero fortalecen su caracterización al permitir que los vóxeles sugeridos presten atención a las observaciones de la imagen. Los vóxeles restantes luego serán procesados ​​por autoatención para finalizar las representaciones de la escena para la segmentación semántica por vóxel después de que los vóxeles no propuestos se conecten a un token de máscara aprendible. VoxFormer proporciona un rendimiento de segmentación semántica y finalización geométrica de última generación, de acuerdo con extensos experimentos en el conjunto de datos SemanticKITTI a gran escala. Más críticamente, como se demuestra en la Fig. 1, los beneficios son grandes en ubicaciones de corto alcance críticas para la seguridad.