Investigadores de Stanford presentan CWM (Modelado mundial contrafactual): un marco que unifica la visión artificial

Estás leyendo la publicación: Investigadores de Stanford presentan CWM (Modelado mundial contrafactual): un marco que unifica la visión artificial

En los últimos tiempos, ha habido un progreso significativo en la comprensión del lenguaje natural y la generación del lenguaje natural. El mejor ejemplo es el conocido ChatGPT desarrollado por OpenAI, que ha estado en los titulares desde su lanzamiento. Aunque ha habido un crecimiento increíble en el dominio de la inteligencia artificial generativa, los algoritmos actuales de IA a gran escala aún necesitan mejorar para lograr una comprensión de la escena visual similar a la humana. Los seres humanos pueden comprender fácilmente las escenas visuales, incluido el reconocimiento de objetos, la comprensión de los arreglos espaciales, la predicción de los movimientos de los objetos, la comprensión de las interacciones de los objetos entre sí, etc., pero la IA aún no ha logrado esa comprensión.

Un enfoque que ha sido efectivo para superar tales desafíos es el uso del modelo de base. Un modelo básico consta de dos componentes clave: un modelo preentrenado, generalmente una gran red neuronal, entrenada para resolver una tarea de predicción de token enmascarada en un gran conjunto de datos del mundo real, y una interfaz de tarea genérica que puede traducir cualquier tarea dentro de un amplio dominio en una entrada para el modelo preentrenado. Los modelos básicos se utilizan mucho en tareas relacionadas con la PNL, pero su aplicación en visión es un desafío debido a problemas con la predicción enmascarada y la incapacidad de obtener cálculos intermedios en visión por computadora a través de una interfaz de modelo de visión única.

🔥 Recomendado:  Cómo habilitar sugerencias de ruta de plantilla en Magento 2

Para hacer frente a estos desafíos, un equipo de investigadores ha propuesto el enfoque CWM (Contrafactual World Modeling), que es un marco para construir un modelo de base visual. Con el objetivo de desarrollar una red no supervisada que pueda realizar varios cálculos visuales cuando se le solicite, el equipo ha creado CWM para unificar la visión artificial.

CWM comprende dos componentes clave. El primero es el enmascaramiento estructurado, que es una extensión de los métodos de predicción enmascarados utilizados en los modelos de lenguaje grande. En el enmascaramiento estructurado, se alienta al modelo de predicción a capturar la estructura de baja dimensión en los datos visuales. Como resultado, el modelo puede factorizar los elementos físicos cruciales de una escena y revelarlos a través de una colección mínima de tokens visuales. El modelo aprende a codificar información significativa sobre la estructura subyacente de las escenas visuales al construir las máscaras.

El segundo componente es la incitación contrafáctica. Se puede calcular una cantidad de representaciones visuales diferentes de forma inmediata comparando la salida del modelo con entradas reales con entradas contrafactuales ligeramente modificadas. Las nociones visuales centrales se pueden derivar simplemente perturbando las entradas y examinando los cambios en las respuestas del modelo. Con este método contrafáctico, se pueden derivar diferentes cálculos visuales sin necesidad de supervisión explícita o diseños específicos de tareas.

Los autores han mencionado que CWM ha demostrado grandes capacidades en la generación de resultados de alta calidad para diversas tareas utilizando imágenes y videos del mundo real. Estas tareas incluyen la estimación de puntos clave (puntos específicos como esquinas o bordes en una imagen utilizada para el reconocimiento de objetos), flujo óptico (patrón de movimiento aparente en una secuencia de imágenes), oclusiones (cuando un objeto obstruye parcial o totalmente a otro objeto en una escena visual), segmentos de objetos (que dividen una imagen en regiones significativas correspondientes a objetos individuales) y profundidad relativa (el orden de profundidad de los objetos en una escena visual). En conclusión, CWM parece un enfoque prometedor que sería capaz de unificar los diversos aspectos de la visión artificial.