▷ Investigadores de CMU presentan BUTD-DETR: un modelo de inteligencia artificial (IA) que condiciona directamente una expresión lingüística y detecta todos los objetos que menciona la expresión

Estás leyendo la publicación: Investigadores de CMU presentan BUTD-DETR: un modelo de inteligencia artificial (IA) que condiciona directamente una expresión lingüística y detecta todos los objetos que menciona la expresión

Encontrar todos los “objetos” en una imagen determinada es la base de la visión artificial. Al crear un vocabulario de categorías y entrenar a un modelo para que reconozca instancias de este vocabulario, uno puede evitar la pregunta: “¿Qué es un objeto?” La situación empeora cuando se intenta utilizar estos detectores de objetos como agentes domésticos prácticos. Los modelos a menudo aprenden a elegir el elemento al que se hace referencia de un grupo de sugerencias de objetos que ofrece un detector preentrenado cuando se le solicita que base las expresiones referenciales en configuraciones 2D o 3D. Como resultado, el detector puede pasar por alto expresiones que se relacionan con cosas visuales de grano más fino, como la silla, la pata de la silla o la punta delantera de la pata de la silla.

El equipo de investigación presenta un transformador de detección de abajo hacia arriba y de arriba hacia abajo (BUTD-DETR pron. Beauty-DETER) como un modelo que condiciona directamente una expresión hablada y encuentra todos los elementos mencionados. BUTD-DETR funciona como un detector de objetos normal cuando el enunciado es una lista de categorías de objetos. Se entrena en pares de imagen-lenguaje etiquetados con los cuadros delimitadores para todos los elementos a los que se alude en el discurso, así como conjuntos de datos de detección de objetos de vocabulario fijo. Sin embargo, con algunos ajustes, BUTD-DETR también puede anclar frases de lenguaje en nubes de puntos 3D e imágenes 2D.

En lugar de elegirlos al azar de un grupo, BUTD-DETR decodifica cajas de objetos prestando atención a la entrada verbal y visual. La atención de abajo hacia arriba, agnóstica de la tarea, puede pasar por alto algunos detalles al ubicar un elemento, pero la atención dirigida por el lenguaje llena los vacíos. Una escena y una expresión hablada se utilizan como entrada para el modelo. Las sugerencias para las cajas se extraen utilizando un detector que ya ha sido entrenado. A continuación, los tokens visuales, de caja y lingüísticos se extraen de la escena, las cajas y el habla utilizando codificadores específicos por modalidad. Estos tokens ganan significado dentro de su contexto al prestar atención unos a otros. Los tickets visuales refinados inician consultas de objetos que decodifican cuadros y abarcan muchas secuencias.

La práctica de la detección de objetos es un ejemplo de lenguaje referencial fundamentado, donde el enunciado es la etiqueta de categoría de la cosa que se detecta. Los investigadores utilizan la detección de objetos como base referencial de las indicaciones de detección al seleccionar aleatoriamente ciertas categorías de objetos del vocabulario del detector y generar expresiones sintéticas al secuenciarlas (por ejemplo, “Sofá. Persona. Silla”). Estas señales de detección se utilizan como información de supervisión complementaria, con el objetivo de encontrar todas las ocurrencias de las etiquetas de categoría especificadas en la señal dentro de la escena. Se le indica al modelo que evite hacer asociaciones de cuadros para etiquetas de categoría para las que no hay ejemplos de entrada visual (como “persona” en el ejemplo anterior). En este enfoque, un solo modelo puede basar el lenguaje y reconocer objetos mientras comparte los mismos datos de entrenamiento para ambas tareas.

Resultados

El equivalente MDETR-3D desarrollado tiene un rendimiento deficiente en comparación con los modelos anteriores, mientras que BUTD-DETR logra un rendimiento de vanguardia en la base del lenguaje 3D.

BUTD-DETR también funciona en el dominio 2D, y con mejoras arquitectónicas como la atención deformable, logra un rendimiento a la par con MDETR mientras converge el doble de rápido. El enfoque da un paso hacia la unificación de los modelos de conexión a tierra para 2D y 3D, ya que se puede adaptar fácilmente para funcionar en ambas dimensiones con ajustes menores.

Para todos los puntos de referencia de puesta a tierra del lenguaje 3D, BUTD-DETR demuestra ganancias de rendimiento significativas en comparación con los métodos de última generación (SR3D, NR3D, ScanRefer). Además, fue la mejor presentación en el taller ECCV sobre Lenguaje para Escenas 3D, donde se llevó a cabo la competencia ReferIt3D. Sin embargo, cuando se entrena con datos masivos, BUTD-DETR puede competir con los mejores enfoques existentes para los puntos de referencia de puesta a tierra del lenguaje 2D. Específicamente, la atención deformable eficiente de los investigadores al modelo 2D permite que el modelo converja dos veces más rápido que el MDETR de última generación.

El siguiente video describe el flujo de trabajo completo.

Cookies no necesarias para ver el contenido.” data-cli-src=”https://www.youtube.com/embed/rvZOKMJ7RBY?version=3&rel=1&showsearch=0&showinfo=1&iv_load_policy=1&fs=1&hl=en-US&autohide=2&wmode= transparente” allowfullscreen=”true” style=”border:0;” sandbox=”allow-scripts allow-mismo-origen allow-popups allow-presentation”>

Investigadores de CMU presentan BUTD-DETR: un modelo de inteligencia artificial (IA) que condiciona directamente una expresión lingüística y detecta todos los objetos que menciona la expresión

Otros temas interesantes: