Estás leyendo la publicación: Conozca RedPajama: un proyecto de IA para crear modelos de lenguaje grande de código abierto completo a partir del lanzamiento de un conjunto de datos de tokens de 1,2 billones
Los modelos básicos más avanzados para IA son solo parcialmente de código abierto y solo están disponibles a través de API comerciales. Esto restringe su uso y limita la investigación y la personalización. Sin embargo, un proyecto llamado RedPajama ahora tiene como objetivo crear modelos líderes de código abierto. El primer paso de este proyecto, la reproducción del conjunto de datos de entrenamiento LLaMA, se ha completado. Los modelos de código abierto han hecho un progreso significativo recientemente, y la IA está experimentando un momento similar al movimiento de Linux. Stable Diffusion demostró que los modelos de código abierto podían competir con las ofertas comerciales y fomentar la creatividad a través de la participación de la comunidad. Ahora ha surgido un movimiento similar en torno a modelos de lenguaje grande, con el lanzamiento de modelos semiabiertos como Llama, Alpaca, Vicuñay Coalaasí como modelos completamente abiertos como Pythia, OpenChatKit, Open Assistant y Dolly.
RedPajama es un esfuerzo de colaboración entre varias instituciones, incluidas Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research, MILA Québec AI Institute y Together. El proyecto tiene como objetivo desarrollar un modelo de lenguaje principal reproducible, completamente abierto, con tres componentes clave: datos previos al entrenamiento, modelos básicos y datos y modelos de ajuste de instrucción. Recientemente, el proyecto lanzó el primer componente, datos de preentrenamiento, un conjunto de datos totalmente abierto de 1,2 billones de tokens basado en el documento LLaMA. El punto de partida de RedPajama es LLaMA, la suite líder de modelos de base abierta. LLaMA fue entrenado en un gran conjunto de datos que fue cuidadosamente filtrado por calidad. Su modelo de 7 mil millones de parámetros se entrena durante más tiempo para garantizar la mejor calidad en ese tamaño de modelo. Sin embargo, LLaMA y sus derivados solo están disponibles para fines de investigación no comerciales. RedPajama tiene como objetivo reproducir LLaMA completamente de código abierto, haciéndolo disponible para aplicaciones comerciales y proporcionando una tubería más transparente para la investigación.
El conjunto de datos de RedPajama está disponible para descargar en cara de abrazo y consta de un conjunto de datos de 1,2 billones de tokens y una muestra aleatoria más pequeña. El conjunto de datos consta de siete segmentos de datos: CommonCrawl, C4, GitHub, arXiv, Books, Wikipedia y StackExchange. Cada segmento de datos se ha sometido a un meticuloso preprocesamiento y filtrado de datos para garantizar la calidad. Los filtros de calidad se ajustaron para aproximar la cantidad de tokens informados por Meta AI en el documento LLaMA. Los segmentos de datos de CommonCrawl se procesaron mediante la canalización de CCNet y se filtraron mediante un clasificador lineal para seleccionar páginas que se asemejan a Wikipedia. Las licencias y la calidad filtraron los datos de GitHub, mientras que los datos de arXiv consistieron en artículos científicos sin repeticiones. Los datos de Books se deduplicaron por similitud de contenido, el subconjunto de Wikipedia eliminó el modelo estándar y el subconjunto StackExchange fue una selección de sitios web populares con el modelo estándar eliminado. El conjunto de datos completo tiene aproximadamente 5 TB descomprimidos en el disco y se puede descargar comprimido en 3 TB.
El proyecto RedPajama está colaborando con la suricata project para lanzar un panel de Meerkat e incrustaciones para el análisis interactivo del subconjunto de GitHub del corpus. Las instrucciones de instalación y uso se pueden encontrar en GitHub. El siguiente paso en el proyecto es entrenar un modelo base robusto después de reproducir los datos previos al entrenamiento. El proyecto cuenta con el respaldo de Oak Ridge Leadership Computing Facility a través del programa INCITE, y pronto estará disponible un conjunto completo de modelos. El equipo está emocionado de instruir y ajustar los modelos, inspirados por el éxito de Alpaca con solo 50,000 instrucciones diversas y de alta calidad. El equipo ha recibido cientos de miles de instrucciones de usuario naturales a través de OpenChatKit, que se utilizarán para lanzar versiones ajustadas a las instrucciones de los modelos RedPajama.