Conozca OpenFlamingo: un marco para entrenar y evaluar grandes modelos multimodales (LMM) capaces de procesar imágenes y texto

Estás leyendo la publicación: Conozca OpenFlamingo: un marco para entrenar y evaluar grandes modelos multimodales (LMM) capaces de procesar imágenes y texto

OpenFlamingo es un marco de código abierto que tiene como objetivo democratizar el acceso a modelos multimodales grandes (LMM) de última generación al proporcionar un sistema capaz de manejar varias tareas de visión y lenguaje. Desarrollado como una reproducción del modelo Flamingo de DeepMind, OpenFlamingo ofrece un marco Python para entrenar LMM estilo Flamingo, un conjunto de datos multimodal a gran escala, un punto de referencia de evaluación de aprendizaje en contexto y la primera versión del modelo OpenFlamingo-9B basado en LLaMA.

El punto de control OpenFlamingo-9B está entrenado en un conjunto de datos masivo, que incluye 5 millones de muestras del conjunto de datos Multimodal C4 y 10 millones de muestras de LAION-2B. El conjunto de datos Multimodal-C4 es una versión extendida del conjunto de datos C4, que se utilizó para entrenar modelos T5. Incluye imágenes descargables para cada documento y se ha sometido a una limpieza de datos para eliminar imágenes no seguras para el trabajo (NSFW) y no relacionadas, como anuncios. Se realiza detección de rostros y se descartan imágenes con identificaciones. Las imágenes y las oraciones se intercalan utilizando coincidencias bipartitas dentro de un documento, donde las similitudes de imagen y texto CLIP ViT/L-14 sirven como pesos de borde. El conjunto de datos comprende alrededor de 75 millones de documentos, incluidos aproximadamente 400 millones de imágenes y 38 mil millones de tokens.

El proyecto tiene como objetivo hacer que los LMM de última generación sean más accesibles mediante la creación de modelos totalmente de código abierto. Se alienta a la comunidad a proporcionar comentarios y contribuir al repositorio, que se espera que tenga un lanzamiento completo con más detalles pronto.

🔥 Recomendado:  Por qué las grandes tecnológicas están impulsando el óxido

El lanzamiento de OpenFlamingo es importante ya que aborda la creciente necesidad de LMM en diversas aplicaciones, incluidos subtítulos de imágenes y videos, recuperación de imágenes, respuesta a preguntas y más. El marco proporciona una solución flexible y escalable para entrenar y evaluar LMM, lo que permite a los investigadores y profesionales desarrollar modelos personalizados para casos de uso específicos.

En general, OpenFlamingo es un desarrollo prometedor en el campo de los LMM. Su enfoque de código abierto y su conjunto de datos a gran escala ofrecen una forma para que los investigadores y profesionales desarrollen modelos más sofisticados para tareas de visión y lenguaje. Será emocionante ver cómo la comunidad contribuye al marco y cómo evoluciona en el futuro.

Aquí hay algunos ejemplos fuente-https://7164d2142d11.ngrok.app/