Estás leyendo la publicación: Conozca ‘Stack’, 3 TB de código fuente con licencia permisiva para LLM (modelos de lenguaje grande)
Hace aproximadamente un año, generar código a partir de un modelo de lenguaje grande (LLM) era como una tarea inalcanzable. Con el avance de la inteligencia artificial, los LLM ahora se utilizan con éxito para generar códigos de software. La generación automática de código ha simplificado muchas tareas de programación del mundo real. Sin embargo, junto con el amplio uso de los LLM de código por parte de los técnicos, ha habido rumores sobre el código fuente que se utiliza como datos de entrenamiento para desarrollar el modelo. El modelo aprende de los ejemplos de capacitación, que pueden incluir códigos de fuente abierta restringidos por licencias restrictivas. Esto generó dudas y planteó preguntas entre los desarrolladores que no habrían tenido la intención de que sus códigos se usaran en el entrenamiento de los modelos de lenguaje.
El proyecto BigCode, una asociación de ServiceNow y Hugging Face, ha lanzado The Stack, que incorpora un conjunto de datos de 3,1 TB de código fuente con licencia permisiva en 30 lenguajes de programación. Teniendo en cuenta el escenario actual en el que el uso de repositorios de código abierto es discutible, BigCode ha lanzado el código para promover la transparencia en torno a los datos previos al entrenamiento.
La idea principal es dejar que las personas elijan si quieren que su código se contribuya a evaluar los modelos de Machine Learning. El sitio web de Hugging Face: ‘https://huggingface.co/spaces/bigcode/in-the-stack’ permite a las personas optar por no incluir su repositorio en The Stack para capacitar a los LLM. Las personas pueden confirmarlo ingresando sus respectivos nombres de usuario de GitHub en el sitio web, y si el repositorio está en la pila, pueden descartar los datos de cualquier variación futura.
El equipo de ServiceNow y Hugging Face, en su artículo publicado recientemente The Stack: 3 TB de código fuente con licencia permisiva han mencionado algunas de sus contribuciones, que son las siguientes:
- El equipo ha revelado 3,1 TB de código fuente con licencia permisiva en 30 lenguajes de programación y una versión casi duplicada del mismo, a la que cualquiera puede acceder visitando el sitio web: https://hf.co/BigCode.
- Al entrenar 350M de transformadores solo de decodificadores en datos de Python, descartar casi duplicados de los datos de entrenamiento ayuda a mejorar notablemente el rendimiento del modelo.
- El equipo pretende demostrar que mediante el uso de datos con licencia permisiva, tiene la capacidad de replicar los extraordinarios resultados de Codex y CodeGen.
- Comparte un plan de gobierno de datos dedicado con las instrucciones y el proceso para optar por no compartir repositorios de código abierto en los datos de capacitación.
Para obtener los detalles de la licencia de los 137,36 millones de repositorios de Github que constituyen el enorme conjunto de datos, el equipo utilizó GHArchive y go-license-detector. Las licencias más utilizadas fueron MIT y Apache 2.0. El grupo realizó una comparación completa entre el tamaño de The Stack y uno de los conjuntos de datos más populares, CodeParrot. Comparado con CodeParrot, The Stack es relativamente más de tres veces el tamaño. Aparte de eso, The Stack se compara con otros conjuntos de datos de código como AlphaCode, CodeGen y PolyCoder.
La ausencia de transparencia en los datos de entrenamiento siempre ha sido un obstáculo crucial para el desarrollo de un modelo. Service Now Research y Hugging Face definitivamente han promovido la claridad en los LLM de código al liberar el enorme conjunto de datos y compartir todo el proceso de curación de los datos.