Estás leyendo la publicación: Conozca Multimodal C4: un corpus abierto de imágenes intercaladas con texto a escala de miles de millones
Los modelos de secuencia pueden adaptarse a nuevas tareas sin actualizaciones de parámetros debido al aprendizaje en contexto. El aprendizaje de pocos disparos se puede presentar como una tarea de predicción del siguiente token al intercalar algunas instancias supervisadas en un aviso, donde se ingresa x1, y1, x2, y2,…, xn para predecir yn. Al combinar imágenes y texto, ciertos modelos de imagen y texto también ofrecen aprendizaje en contexto. Investigaciones previas indican que el aprendizaje multimodal efectivo en contexto requiere un entrenamiento previo en secuencias de imágenes y texto que están intercalados de manera similar (en lugar de una sola combinación de imagen/título). Sin embargo, un corpus de este tamaño aún no está disponible para el público en general.
Investigadores de la Universidad de California, Santa Bárbara, el Instituto Allen de Inteligencia Artificial, la Escuela de Ciencias de la Computación Paul G. Allen, la Universidad de Washington, la Universidad de Columbia, la Universidad de Yonsei y LAION proporcionan Multimodal C4 (mmc4), una imagen pública a escala de miles de millones -Colección de texto formada por secuencias de imagen/texto entrelazadas, para abordar el problema. Las páginas web públicas para el corpus c4 en inglés limpio se utilizan para generar mmc4. Tratan cada documento como un problema de asignación lineal bipartito, con oraciones asignadas a imágenes (bajo la restricción de que a cada oración se le asigna como máximo una imagen) y los procedimientos habituales de preprocesamiento como deduplicación, eliminación de NSFW, etc. También insertan imágenes en secuencias. de sanciones al tratar cada documento como una instancia de un problema de asignación lineal bipartita.
En primer lugar, muestran que el uso de CLIP ViT-L/14 para estimar pesos bipartitos en una técnica de disparo cero da como resultado un rendimiento de última generación en los puntos de referencia de alineación intradocumento, que se utiliza para construir mmc4. Discuten mmc4, señalando que: 1) el texto y las imágenes cubren temas comunes esperados como cocinar y viajar; 2) filtros como NSFW/eliminación de anuncios funcionan con gran precisión; y 3) las imágenes resultantes son pertinentes a los documentos asociados y, con frecuencia, están correctamente alineadas con la oración individual más pertinente.
Antes de concluir, exploran los primeros casos de uso de mmc4, incluido OpenFlamingo3, una variante de código abierto de Flamingo. Presentan mmc4, un corpus de 585M de imágenes del conocido conjunto de datos c4 intercaladas con 43B tokens ingleses. De acuerdo con los resultados preliminares, el entrenamiento en las secuencias mmc4 permite la adaptación en contexto de pocos disparos a conjuntos de datos de subtítulos de imágenes. En términos comparativos, los modelos entrenados en imágenes/subtítulos individuales son menos capaces de realizar un aprendizaje multimodal en contexto que los modelos entrenados en secuencias de imágenes/texto de mmc4. Anticipan que la intercalación será crucial para la comprensión de pocos disparos y para tecnologías de lenguaje multimodal más variadas donde los usuarios pueden desear interactuar con agentes de formas novedosas mientras interactúan y discuten información visual.
La investigación futura debe centrarse en lo siguiente:
1. Una evaluación empírica más precisa de las habilidades de razonamiento en contexto; ¿Los modelos son capaces de razonar a través de imágenes y textos en un mensaje, o están restringidos a ejemplos supervisados intercalados y separados?
2. Escalado de datos: ¿La disponibilidad de grandes corpus intercalados limita el rendimiento del aprendizaje de visión+lenguaje en contexto? ¿O es suficiente un mejor enfoque de preentrenamiento monomodal para liberar los modelos multimodales de los cuellos de botella?
3. Ajuste de instrucciones: aunque intercalar ejemplos separados de imagen+texto supervisados permite el aprendizaje en contexto, entrenar un modelo multimodal de seguimiento de instrucciones específicamente para este uso es una alternativa viable.
Tienen acceso restringido a su proyecto. Aquellos que no tengan acceso completo al proyecto deben completar un formulario en su página de GitHub.