Estás leyendo la publicación: Microsoft AI propone MM-REACT: un paradigma de sistema que combina ChatGPT y expertos en visión para un razonamiento y una acción multimodal avanzados
Los Large Language Models (LLM) están avanzando rápidamente y contribuyendo a notables transformaciones económicas y sociales. Con muchas herramientas de inteligencia artificial (IA) lanzadas en Internet, una de esas herramientas que se ha vuelto extremadamente popular en los últimos meses es ChatGPT. ChatGPT es un modelo de procesamiento de lenguaje natural que permite a los usuarios generar texto significativo como los humanos. ChatGPT de OpenAI se basa en la arquitectura del transformador GPT, siendo GPT-4 el último modelo de lenguaje que lo impulsa.
Con los últimos desarrollos de inteligencia artificial y aprendizaje automático, la visión por computadora ha avanzado exponencialmente, con una arquitectura de red mejorada y entrenamiento de modelos a gran escala. Recientemente, algunos investigadores han introducido MM-REACT, que es un paradigma de sistema que compone numerosos expertos en visión con ChatGPT para el razonamiento y la acción multimodal. MM-REACT combina modelos de visión individuales con el modelo de lenguaje de una manera más flexible para superar desafíos complicados de comprensión visual.
MM-REACT se ha desarrollado con el objetivo de encargarse de una amplia gama de tareas visuales complejas con las que luchan los modelos existentes de visión y visión-lenguaje. Para esto, MM-REACT utiliza un diseño rápido para representar varios tipos de información, como descripciones de texto, coordenadas espaciales textualizadas y señales visuales densas, como imágenes y videos, representados como nombres de archivos alineados. Este diseño permite que ChatGPT acepte y procese diferentes tipos de información en combinación con entradas visuales, lo que lleva a una comprensión más precisa y completa.
MM-REACT es un sistema que combina las capacidades de ChatGPT con un grupo de expertos en visión para agregar funcionalidades multimodales. La ruta del archivo se usa como marcador de posición y se ingresa en ChatGPT para permitir que el sistema acepte imágenes como entrada. Cada vez que el sistema requiere información específica de la imagen, como identificar el nombre de una celebridad o las coordenadas del cuadro, ChatGPT busca la ayuda de un experto en visión específico. La salida del experto luego se serializa como texto y se combina con la entrada para activar aún más ChatGPT. La respuesta se devuelve directamente al usuario si no se necesitan expertos externos.
ChatGPT se ha diseñado para comprender el conocimiento de los usos de los expertos en visión al agregar ciertas instrucciones a las indicaciones de ChatGPT que están relacionadas con la capacidad de cada experto, el tipo de argumento de entrada y el tipo de salida, junto con algunos ejemplos en contexto para cada experto. Además, se indica una contraseña especial para usar la coincidencia de expresiones regulares para invocar al experto en consecuencia.
Tras la experimentación, los experimentos Zero-shot han demostrado cómo MM-REACT aborda de manera efectiva sus capacidades particulares de interés. Ha demostrado su eficacia para resolver una amplia gama de tareas visuales avanzadas que requieren una comprensión visual compleja. Los autores han compartido algunos ejemplos en los que MM-REACT puede proporcionar soluciones a ecuaciones lineales que se muestran en una imagen. Además, puede realizar la comprensión de conceptos nombrando productos en la imagen y sus ingredientes, etc. En conclusión, este paradigma de sistema combina en gran medida la experiencia en lenguaje y visión y es capaz de lograr una inteligencia visual avanzada.