Estás leyendo la publicación: Conozca a Prismer: un modelo de visión y lenguaje de código abierto con un conjunto de expertos
Varios modelos recientes de visión y lenguaje han demostrado notables habilidades de generación multimodal. Pero, por lo general, requieren entrenar modelos enormes en conjuntos de datos enormes. Los investigadores presentan Prismer, un modelo de lenguaje de visión eficiente en datos y parámetros que utiliza un conjunto de expertos en el dominio, como una alternativa escalable. Al heredar la mayoría de los pesos de la red de expertos en dominios previamente capacitados disponibles públicamente y congelarlos durante el entrenamiento, Prismer solo requiere entrenar algunos componentes.
Las capacidades de generalización de los grandes modelos preentrenados son excepcionales en muchas tareas diferentes. Sin embargo, estas funciones tienen un precio elevado, ya que requieren una gran cantidad de datos de entrenamiento y recursos computacionales para el entrenamiento y la inferencia. Los modelos con cientos de miles de millones de parámetros entrenables son comunes en el dominio del lenguaje y, por lo general, requieren un presupuesto informático en la escala yottaFLOP.
Los problemas relacionados con el aprendizaje del lenguaje visual son más difíciles de resolver. Aunque este campo es un superconjunto del procesamiento del lenguaje, también requiere experiencia en pensamiento visual y multimodal. Usando sus señales multimodales proyectadas, Prismer es un modelo de lenguaje de visión eficiente en datos que utiliza una amplia gama de expertos previamente capacitados. Puede manejar respuestas visuales a preguntas y subtítulos de imágenes, dos ejemplos de tareas de razonamiento de visión y lenguaje. Usando un prisma como ejemplo, Prismer divide un trabajo de razonamiento general en varias partes más pequeñas y manejables.
Los investigadores desarrollaron un modelo de generación de texto autorregresivo condicionado visualmente para Dos de las características de diseño más importantes de Prismer son solo de visión. Modelos solo de lenguaje para el conocimiento a escala web para construir las redes troncales de nuestra red central, y (ii) expertos en visión específicos de las modalidades que codifican múltiples tipos de información visual, desde señales de visión de bajo nivel como profundidad hasta señales de visión de alto nivel como instancia y semántica. etiquetas, como conocimiento auxiliar, directamente desde sus correspondientes salidas de red. Los investigadores desarrollaron un modelo de generación de texto autorregresivo condicionado visualmente para utilizar mejor varios expertos de dominio previamente capacitados para tareas exploratorias de razonamiento de visión y lenguaje.
Aunque Prismer solo se capacitó en 13 millones de ejemplos de datos de imagen/texto alternativo disponibles públicamente, muestra un sólido rendimiento de razonamiento multimodal en tareas como subtítulos de imágenes, clasificación de imágenes y respuesta visual a preguntas, que es competitivo con muchos de los más avanzados. los modelos de lenguaje de visión de arte. Los investigadores concluyen con una investigación exhaustiva de los hábitos de aprendizaje de Prismer, donde los investigadores encuentran varias características buenas.
Diseño del modelo:
El modelo Prismer, que se muestra en su versión de transformador codificador-decodificador, se basa en un gran grupo de expertos en la materia ya capacitados para acelerar el proceso de capacitación. Un codificador visual más un decodificador de lenguaje autorregresivo conforman este sistema. El codificador de visión recibe una secuencia de etiquetas RGB y multimodales (profundidad, superficie normal y etiquetas de segmentación anticipadas de los expertos congelados previamente capacitados) como entrada. Produce una secuencia de funciones RGB y multimodales como salida. Como resultado de este entrenamiento de atención cruzada, el decodificador de lenguaje está condicionado para generar una cadena de tokens de texto.
ventajas:
- El modelo Prismer tiene varios beneficios, pero uno de los más notables es que utiliza los datos de manera extremadamente eficiente mientras se entrena. Prismer está construido sobre modelos troncales de solo visión y solo lenguaje preentrenados para lograr este objetivo con una disminución considerable en las horas de GPU necesarias para lograr un rendimiento equivalente a otros modelos de visión y lenguaje de última generación. Uno puede usar estos parámetros pre-entrenados para usar las cantidades masivas de conocimiento disponible a escala web.
- Los investigadores también desarrollaron una entrada de señal multimodal para el codificador de visión. El conocimiento auxiliar multimodal creado puede capturar mejor la semántica y la información sobre la imagen de entrada. La arquitectura de Prismer está optimizada para maximizar el uso de expertos capacitados con pocos parámetros entrenables.
Los investigadores han incluido dos variedades de especialistas pre-entrenados en Prismer:
- Especialistas en la columna vertebral Los modelos preentrenados responsables de traducir texto e imágenes en una secuencia significativa de fichas se denominan modelos de “solo visión” y “solo lenguaje”, respectivamente.
- Dependiendo de los datos utilizados en su capacitación, los moderadores de Discourse Models pueden etiquetar las tareas de varias formas.
Propiedades
- Cuantas más personas capacitadas haya, mejores serán los resultados. A medida que crece el número de especialistas en modalidad en Prismer, su rendimiento mejora.
- Profesionales más calificados, mejores resultados Los investigadores reemplazan una fracción de las etiquetas de profundidad predichas con ruido aleatorio tomado de una distribución uniforme para crear un experto de profundidad corrupto y evaluar el efecto de la calidad experta en el desempeño de Prismer.
- Resistencia a las opiniones negativas Los hallazgos demuestran aún más que el desempeño de Prismer es estable cuando se incorporan expertos en predicción de ruido.
Revisar la Papel y Github. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 15k+ ML, Canal de discordiay Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.
Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools