Estás leyendo la publicación: Conozca OpenFlamingo: un marco para entrenar y evaluar grandes modelos multimodales (LMM) capaces de procesar imágenes y texto
OpenFlamingo es un marco de código abierto que tiene como objetivo democratizar el acceso a modelos multimodales grandes (LMM) de última generación al proporcionar un sistema capaz de manejar varias tareas de visión y lenguaje. Desarrollado como una reproducción del modelo Flamingo de DeepMind, OpenFlamingo ofrece un marco Python para entrenar LMM estilo Flamingo, un conjunto de datos multimodal a gran escala, un punto de referencia de evaluación de aprendizaje en contexto y la primera versión del modelo OpenFlamingo-9B basado en LLaMA.
El punto de control OpenFlamingo-9B está entrenado en un conjunto de datos masivo, que incluye 5 millones de muestras del conjunto de datos Multimodal C4 y 10 millones de muestras de LAION-2B. El conjunto de datos Multimodal-C4 es una versión extendida del conjunto de datos C4, que se utilizó para entrenar modelos T5. Incluye imágenes descargables para cada documento y se ha sometido a una limpieza de datos para eliminar imágenes no seguras para el trabajo (NSFW) y no relacionadas, como anuncios. Se realiza detección de rostros y se descartan imágenes con identificaciones. Las imágenes y las oraciones se intercalan utilizando coincidencias bipartitas dentro de un documento, donde las similitudes de imagen y texto CLIP ViT/L-14 sirven como pesos de borde. El conjunto de datos comprende alrededor de 75 millones de documentos, incluidos aproximadamente 400 millones de imágenes y 38 mil millones de tokens.
El proyecto tiene como objetivo hacer que los LMM de última generación sean más accesibles mediante la creación de modelos totalmente de código abierto. Se alienta a la comunidad a proporcionar comentarios y contribuir al repositorio, que se espera que tenga un lanzamiento completo con más detalles pronto.
El lanzamiento de OpenFlamingo es importante ya que aborda la creciente necesidad de LMM en diversas aplicaciones, incluidos subtítulos de imágenes y videos, recuperación de imágenes, respuesta a preguntas y más. El marco proporciona una solución flexible y escalable para entrenar y evaluar LMM, lo que permite a los investigadores y profesionales desarrollar modelos personalizados para casos de uso específicos.
En general, OpenFlamingo es un desarrollo prometedor en el campo de los LMM. Su enfoque de código abierto y su conjunto de datos a gran escala ofrecen una forma para que los investigadores y profesionales desarrollen modelos más sofisticados para tareas de visión y lenguaje. Será emocionante ver cómo la comunidad contribuye al marco y cómo evoluciona en el futuro.
Aquí hay algunos ejemplos fuente-https://7164d2142d11.ngrok.app/