Estás leyendo la publicación: Conozca PaLM-E: un nuevo modelo de lenguaje multimodal incorporado de 562 000 millones de parámetros que realiza tareas como la planificación de la manipulación robótica y el control de calidad visual
Los modelos de lenguaje extenso (LLM, por sus siglas en inglés) muestran sólidas habilidades de razonamiento en una variedad de campos, que incluyen conversación, razonamiento paso a paso, resolución de problemas matemáticos y creación de código. Aunque capacitar a los LLM en grandes cantidades de datos textuales puede producir representaciones relacionadas con su entorno físico, conectar esas representaciones a las modalidades de sensores físicos y visuales del mundo real es crucial para resolver una gama más amplia de problemas del mundo real en la visión artificial y la robótica.
El trabajo anterior interactúa el resultado de los LLM con políticas robóticas aprendidas y funciones de asequibilidad para tomar decisiones, pero está limitado de esa manera. La limitación del trabajo anterior es que el LLM solo recibe información textual, lo cual es insuficiente para muchas tareas donde la configuración geométrica de la escena es crucial. Además, su investigación demuestra que los modelos de lenguaje visual de vanguardia entrenados en tareas comunes de visión y lenguaje como la respuesta visual a preguntas (VQA) no pueden resolver directamente los problemas de razonamiento robótico. En este estudio, investigadores de Google y TU Berlin sugieren modelos de lenguaje incorporado, que incluyen directamente entradas continuas de las modalidades de sensor de un agente incorporado y permiten que el modelo de lenguaje saque conclusiones más precisas para la toma de decisiones secuenciales en el mundo real. Desarrollan PaLM-E, que es un gran modelo multimodal incorporado único que muestra una transferencia positiva y puede resolver una variedad de problemas de razonamiento incorporado desde diferentes modalidades de observación en numerosas realizaciones.
PaLM-E LLM exhibe una transferencia positiva donde el conocimiento o las habilidades del primer idioma de un alumno (L1) se pueden aplicar al aprendizaje de su segundo idioma (L2), lo que resulta en una adquisición más rápida y efectiva de la L2. Por ejemplo, si la L1 de un alumno tiene una estructura gramatical similar a la L2 que está aprendiendo, es posible que pueda usar su conocimiento de la gramática de la L1 para comprender y aplicar las reglas de la gramática de la L2 más rápidamente. De manera similar, si la L1 y la L2 de un alumno comparten cognados (palabras que se escriben y tienen un significado similar en ambos idiomas), es posible que puedan expandir rápidamente su vocabulario de L2 al reconocer y recordar estos cognados. La transferencia positiva puede contrastarse con la transferencia negativa, que ocurre cuando el conocimiento o las habilidades de la L1 de un alumno interfieren con su capacidad para adquirir su L2. Por ejemplo, si la estructura gramatical de la L1 de un alumno es muy diferente de la de su L2, es posible que tenga dificultades para aplicar correctamente las reglas gramaticales de la L2, incluso si las entiende intelectualmente.
De manera similar a cómo las capas de autoatención de un LLM basado en Transformer procesan los tokens de idioma, las entradas como imágenes y estimaciones de estado también se incorporan en la misma incrustación latente que los tokens de idioma. Comienzan inyectando las entradas continuas a través de un codificador en un LLM preentrenado. Estos codificadores han recibido capacitación integral para producir juicios secuenciales en lenguaje natural, que el agente incorporado puede comprender configurando reglas de bajo nivel o respondiendo a una consulta incorporada. Al contrastar varias representaciones de entrada (como codificaciones ViT estándar frente a centradas en objetos para entrada visual), congelar frente a ajustar el modelo de lenguaje mientras entrenan a los codificadores y examinan si el entrenamiento conjunto en múltiples tareas permite la transferencia, evalúan el enfoque en una variedad de contextos.
Probaron la técnica en tres dominios de manipulación robótica (dos de los cuales son de circuito cerrado en el mundo real), tareas comunes de lenguaje visual como VQA y subtítulos de imágenes, y tareas de lenguaje, para determinar la amplitud del enfoque. Según sus hallazgos, el entrenamiento multitarea mejora el rendimiento en comparación con los modelos de entrenamiento para tareas individuales. Demuestran cómo esta transferencia entre tareas puede resultar en una gran eficiencia de datos para tareas de robótica, incluida la exhibición de una generalización de disparo único o cero para combinaciones de elementos novedosos u objetos desconocidos y una mejora considerable del rendimiento de aprendizaje a partir de un pequeño número de muestras de entrenamiento. Según su conocimiento, el 540B PaLM LLM y el 22B Vision Transformer (ViT) se combinan para crear el modelo de lenguaje de visión más grande jamás publicado, escalando PaLM-E hasta los parámetros 562B.
Sin utilizar el ajuste fino específico de la tarea, PaLM-E-562B logra un rendimiento de vanguardia en el punto de referencia OK-VQA. También descubren que PaLM-E-562B muestra una amplia gama de habilidades a pesar de haber sido entrenado en solo ejemplos de una sola imagen, que incluyen indicaciones de pocos disparos de cadena de pensamiento (CoT) multimodal de disparo cero, razonamiento aritmético sin OCR, y razonamiento multiimagen. Zero-shot CoT, inicialmente una noción de solo lenguaje, tiene, según su conocimiento, aún no se ha demostrado usando un modelo de extremo a extremo en datos multimodales con programas específicos de tareas.
Para resumir sus contribuciones principales, (1) sugieren y muestran cómo los datos incorporados pueden incluirse en el entrenamiento de un modelo de lenguaje grande multimodal para crear un agente de toma de decisiones generalista, de transferencia aprendida y de múltiples incorporaciones. Demuestran que, a pesar de que los modelos de lenguaje visual de propósito general de última generación no abordan de manera efectiva los problemas de razonamiento incorporado de forma inmediata (disparo cero), es posible entrenar un modelo de lenguaje visual de propósito general. que es a la vez un razonador encarnado eficaz y competente. Al investigar el entrenamiento óptimo de tales modelos,
Ellos (3) proporcionan nuevos conceptos arquitectónicos, incluidos tokens multimodales de etiquetado de entidades y representaciones de escenas neuronales. Por último, pero no menos importante, (4) demuestran que PaLM-E también es un generalista de lenguaje y visión cuantitativamente hábil, además de su concentración en PaLM-E como un razonador incorporado, y (5) muestran que expandir el tamaño del modelo de lenguaje permite ajuste fino multimodal con menos olvidos catastróficos. Se pueden encontrar varias demostraciones en el sitio web de su proyecto.