Estás leyendo la publicación: Un equipo de investigadores de IA propone ‘GLIPv2’: un marco unificado para el aprendizaje de representaciones de visión y lenguaje (VL) que sirve tanto para tareas de localización como para tareas de comprensión de VL
Este artículo está escrito como un resumen por el personal de Marktechpost basado en el artículo ‘TaiChi: biblioteca de código abierto para PNL de pocos disparos‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel y github
Por favor, no olvides unirte a nuestro Subreddit de aprendizaje automático
Con los avances en la identificación y el reconocimiento de objetos, comprender el contexto de los elementos en una imagen se ha vuelto cada vez más crucial. Por ejemplo, un paraguas y un ser humano se reconocen en una imagen y es útil saber si la persona lleva el paraguas. Encontrar soluciones a estos problemas ha aumentado el interés público en el desarrollo de sistemas de visión de propósito general.
Los sistemas de visión de uso general, también conocidos como modelos básicos de visión, abordan varias tareas de visión simultáneamente, como la categorización de imágenes, la identificación de objetos y la comprensión del lenguaje visual (VL). La integración de tareas de localización como identificación de objetos, segmentación y comprensión de VL es de particular relevancia (por ejemplo, VQA y subtítulos de imágenes). Una dificultad de larga data es la integración de la localización y la comprensión, que se esfuerza por obtener un beneficio mutuo, un método de capacitación previa simplificado y menores costos de capacitación previa. Sin embargo, estos dos tipos de tareas parecen ser muy diferentes: las tareas de localización son solo de visión y necesitan resultados detallados (por ejemplo, cuadros delimitadores o máscaras de píxeles), mientras que las tareas de comprensión de VL enfatizan la fusión de dos modalidades y requieren semántica de alto nivel. salidas (por ejemplo, respuestas o subtítulos).
Antes de este estudio, los investigadores intentaron integrar estas tareas en un enfoque multitarea básico, en el que se comparte un codificador visual de bajo nivel entre las tareas y se crean dos ramas diferentes de alto nivel para la localización y la comprensión de VL, respectivamente. Las tareas de localización siguen siendo solo de visión y no aprovechan la rica semántica de los datos de lenguaje de visión.
En este estudio, la “conexión a tierra de VL” se identifica como una habilidad para la localización y la comprensión. La conexión a tierra de VL implica comprender un idioma de entrada y ubicar los elementos a los que se hace referencia en la imagen (consulte la Figura 1). Como modelo unificado para tareas de comprensión de VL y localización, se construye un modelo de comprensión de VL basado en tierra (GLIPv2).
Localización + comprensión de VL = comprensión de VL fundamentada. Los desafíos de localización implican localización y clasificación semántica, donde la clasificación puede enmarcarse como un problema de comprensión de VL utilizando el método de clasificación para emparejar. Los datos de localización se convierten en datos de conexión a tierra VL según sea necesario. Los vastos datos de comprensión de VL (emparejamientos de imagen y texto) pueden ser simplemente autoentrenados en datos de puesta a tierra de VL. Como resultado, GLIPv2 incluye un procedimiento de preentrenamiento unificado en el que todos los datos de la tarea se convierten en datos de puesta a tierra, y GLIPv2 está preentrenado para realizar la comprensión de VL a tierra.
El aprendizaje contrastivo entre imágenes región-palabra es un desafío de puesta a tierra más poderoso de VL. Como tarea previa a la capacitación, GLIP recomienda la frase tarea de puesta a tierra, que consideramos es un desafío simple que no utiliza correctamente la información de los datos.
En la Figura 1, por ejemplo, la frase desafío de puesta a tierra simplemente necesita que el modelo haga coincidir una región de imagen determinada con una de las tres frases en la entrada de texto, es decir, “paraguas verde, con rayas rosadas o blanco liso”. Esta opción 1 en 3 es relativamente simple y solo requiere comprensión del color, pero pierde mucha información en los datos de conexión a tierra: los paraguas no son de otros colores, como negro, amarillo, etc.; los objetos en esas regiones son paraguas pero no otras categorías, como automóviles, bicicletas.
GLIPv2 proporciona una ganancia recíproca de la localización y la comprensión de VL.
1) Los hallazgos experimentales revelan que un solo modelo GLIPv2 produce un rendimiento cercano a SoTA en varias tareas de localización y comprensión.
2) GLIPv2 demuestra una capacidad mejorada de aprendizaje de transferencia de disparos cero y pocos disparos para tareas de segmentación de instancias y reconocimiento de objetos de mundo abierto en el conjunto de datos LVIS y el punto de referencia “Detección de objetos en la naturaleza (ODinW)”, gracias a las anotaciones ricas en semántica de datos de imagen-texto.
3) GLIPv2 admite la identificación y segmentación guiada por lenguaje, con un nuevo rendimiento de SoTA en las tareas de segmentación de imágenes de referencia de PhraseCut y Flick30K-entities frase dos.
4) Debido a que GLIPv2 es inherentemente un modelo de conexión a tierra, produce modelos de comprensión de VL con excelentes capacidades de conexión a tierra que son autoexplicables y fáciles de depurar. Por ejemplo, GLIPv2 puede responder preguntas mientras localiza las cosas indicadas cuando se ajusta en VQA.
Se puede acceder al código en GitHub y la demostración está disponible en un cuaderno de Colab.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools