Investigadores de UC Berkeley y Deepmind proponen SuccessVQA: una reformulación de la detección de éxito que es compatible con VLM preentrenados como Flamingo

Estás leyendo la publicación: Investigadores de UC Berkeley y Deepmind proponen SuccessVQA: una reformulación de la detección de éxito que es compatible con VLM preentrenados como Flamingo

Para lograr la mejor precisión de desempeño posible, es crucial comprender si un agente está en el camino correcto o preferido durante el entrenamiento. Esto puede ser en forma de felicitar a un agente con una recompensa en el aprendizaje de refuerzo o usar una métrica de evaluación para identificar las mejores políticas posibles. Como resultado, ser capaz de detectar un comportamiento tan exitoso se convierte en un requisito previo fundamental al entrenar agentes inteligentes avanzados. Aquí es donde entran en juego los detectores de éxito, ya que pueden usarse para clasificar si el comportamiento de un agente es exitoso o no. Investigaciones anteriores han demostrado que desarrollar detectores de éxito específicos de dominio es comparativamente más fácil que los más generalizados. Esto se debe a que definir lo que pasa como un éxito para la mayoría de las tareas del mundo real es bastante desafiante, ya que a menudo es subjetivo. Por ejemplo, una obra de arte generada por IA puede dejar a algunos hipnotizados, pero no se puede decir lo mismo de toda la audiencia.

En los últimos años, los investigadores han ideado diferentes enfoques para desarrollar detectores de éxito, uno de ellos es el modelado de recompensas con datos de preferencia. Sin embargo, estos modelos tienen ciertos inconvenientes, ya que brindan un rendimiento apreciable solo para el conjunto fijo de tareas y condiciones ambientales observadas en los datos de entrenamiento anotados por preferencia. Por lo tanto, para garantizar la generalización, se necesitan más anotaciones para cubrir una amplia gama de dominios, lo cual es una tarea muy laboriosa. Por otro lado, cuando se trata de modelos de entrenamiento que utilizan tanto la visión como el lenguaje como entrada, la detección de éxito generalizable debe garantizar que brinde medidas precisas en ambos casos: lenguaje y variaciones visuales en la tarea especificada en cuestión. Los modelos existentes generalmente se entrenaron para condiciones y tareas fijas y, por lo tanto, no pueden generalizarse a tales variaciones. Además, adaptarse a las nuevas condiciones generalmente requiere recopilar un nuevo conjunto de datos anotados y volver a entrenar el modelo, lo que no siempre es factible.

🔥 Recomendado:  «La burbuja NFT ha estallado, pero nada que tenga que ver con las tecnologías blockchain» — Giovanni Petrantoni, CEO y fundador de Fragnova

Trabajando en esta declaración del problema, un equipo de investigadores de la subsidiaria de Alphabet, DeepMind, ha desarrollado un enfoque para entrenar detectores de éxito robustos que pueden soportar variaciones tanto en las especificaciones del lenguaje como en las condiciones de percepción. Lo han logrado aprovechando grandes modelos de lenguaje de visión preentrenados como Flamingo y anotaciones de recompensa humana. El estudio se basa en la observación del investigador de que entrenar previamente a Flamingo en una gran cantidad de datos lingüísticos y visuales diversos conducirá a entrenar detectores de éxito más robustos. Los investigadores afirman que su contribución más significativa es reformular la tarea de detección de éxito generalizable como un problema de respuesta visual a preguntas (VQA), denominado SuccessVQA. Este enfoque especifica la tarea en cuestión como una simple pregunta de sí/no y utiliza una arquitectura unificada que solo consta de un breve clip que define el entorno de estado y algún texto que describe el comportamiento deseado.

El equipo de DeepMind también demostró que ajustar Flamingo con anotaciones humanas conduce a una detección de éxito generalizable en tres dominios principales. Estos incluyen agentes interactivos basados ​​en el lenguaje natural en una simulación doméstica, manipulación robótica del mundo real y videos humanos egocéntricos en la naturaleza. La naturaleza universal de la formulación de tareas de SuccessVQA permite a los investigadores utilizar la misma arquitectura y mecanismo de capacitación para una amplia gama de tareas de diferentes dominios. Además, el uso de un modelo de visión y lenguaje preentrenado como Flamingo hizo que fuera considerablemente más fácil disfrutar plenamente de las ventajas del preentrenamiento en un gran conjunto de datos multimodal. El equipo cree que esto hizo posible la generalización tanto del lenguaje como de las variaciones visuales.

🔥 Recomendado:  El director ejecutivo de Microsoft, Satya Nadella, dice: "Xbox Series X se lanzará con la gama más grande"

Para evaluar su reformulación de la detección del éxito, los investigadores realizaron varios experimentos con variaciones visuales y de lenguaje invisibles. Estos experimentos revelaron que los modelos de visión y lenguaje preentrenados tienen un rendimiento comparable en la mayoría de las tareas dentro de la distribución y superan significativamente a los modelos de recompensa específicos de tareas en escenarios fuera de la distribución. Las investigaciones también revelaron que estos detectores de éxito son capaces de una generalización de tiro cero a variaciones invisibles en el lenguaje y la visión, donde fallaron los modelos de recompensa existentes. Aunque el enfoque novedoso, tal como lo proponen los investigadores de DeepMind, tiene un rendimiento notable, todavía tiene ciertas deficiencias, especialmente en tareas relacionadas con el entorno de la robótica. Los investigadores han declarado que su trabajo futuro implicará realizar más mejoras en este dominio. DeepMind espera que la comunidad de investigación vea su trabajo inicial como un trampolín para lograr más en cuanto a la detección del éxito y el modelado de recompensas.