Microsoft Research presenta Visual ChatGPT que incorpora diferentes modelos de base visual que permiten a los usuarios interactuar con ChatGPT

Estás leyendo la publicación: Microsoft Research presenta Visual ChatGPT que incorpora diferentes modelos de base visual que permiten a los usuarios interactuar con ChatGPT

En los últimos años se han producido avances notables en el desarrollo de modelos de lenguaje extenso (LLM), incluidos T5, BLOOM y GPT-3. ChatGPT, basado en InstructGPT, es un gran avance porque se enseña a aferrarse al contexto conversacional, responder adecuadamente a las consultas de seguimiento y generar respuestas precisas. Si bien ChatGPT es impresionante, solo está capacitado con una única modalidad de idioma, lo que limita su capacidad para manejar información visual.

Los Visual Foundation Models (VFM) han mostrado un enorme potencial en la visión artificial gracias a su capacidad para comprender y construir imágenes complejas. Sin embargo, los VFM son menos adaptables que los modelos de lenguaje conversacional en la interacción hombre-máquina debido a las restricciones impuestas por la naturaleza de la definición de tareas y los formatos de entrada-salida predefinidos.

Entrenar un modelo conversacional multimodal es una solución natural que puede crear un sistema similar a ChatGPT pero con la capacidad de comprender y crear contenido visual. Sin embargo, construir tal sistema requeriría una cantidad sustancial de información y poder de procesamiento.

Un nuevo estudio de Microsoft propone una solución a este problema con Visible ChatGPT que interactúa con modelos de visión a través de texto y encadenamiento de avisos. Los investigadores desarrollaron Visual ChatGPT además de ChatGPT y agregaron varios VFM como alternativa al entrenamiento de un nuevo ChatGPT multimodal desde el principio. Presentan un Administrador de avisos que cierra la brecha entre ChatGPT y estos VFM con las siguientes características:

  1. Especifica los formatos de entrada y salida e informa a ChatGPT sobre las capacidades de cada VFM
  2. Maneja las historias, las prioridades y los conflictos de varios modelos de Visual Foundation.
  3. Convierte diversa información visual, como imágenes png, imágenes de profundidad y matriz de máscara, en formato de idioma para ayudar a la comprensión de ChatGPT.
🔥 Recomendado:  Usuarios de ChatGPT: ¿Cuántas personas usan ChatGPT en 2023?

Al integrar Prompt Manager, ChatGPT puede emplear iterativamente estos VFM y aprender de sus respuestas hasta que satisfaga las necesidades de los usuarios o alcance el estado final.

Por ejemplo, supongamos que un usuario carga una imagen de una flor amarilla y agrega una instrucción de lenguaje difícil como “genera una flor roja condicionada a la profundidad prevista de esta imagen y luego constrúyela como una caricatura, paso a paso”. Visual ChatGPT inicia la ejecución de modelos de Visual Foundation vinculados mediante el administrador de avisos. Específicamente, primero emplea un modelo de estimación de profundidad para identificar la información de profundidad, luego un modelo de profundidad a imagen para crear una figura de una flor roja usando la información de profundidad y finalmente un VFM de transferencia de estilo basado en un modelo de difusión estable para transformar la estética de esta imagen en una caricatura. En la cadena de procesamiento anterior, Prompt Manager actúa como despachador de ChatGPT proporcionando las representaciones visuales y rastreando la transformación de la información. Después de recopilar sugerencias de “dibujos animados” de Prompt Manager, Visual ChatGPT detendrá la ejecución de la canalización y mostrará el resultado final.

Al ejecutar la fuente a través de Pyreverse, sería posible lograr la multimodalidad mediante el uso de un “modelo de dios” para seleccionar entre varios modelos pequeños, con texto como interfaz universal.

Los investigadores mencionan en su artículo que la falla de los VFM y la inconsistencia del Prompt son motivo de preocupación, ya que conducen a resultados de generación menos que satisfactorios. Por esta razón, se requiere un solo módulo de autocorrección para verificar que los resultados de la ejecución sean consistentes con las intenciones humanas y para realizar las ediciones necesarias. Es posible que el tiempo de inferencia del modelo se dispare debido a su tendencia a corregirse el rumbo constantemente. El equipo planea abordar este problema en su estudio futuro.