▷ Conozca ChatLLaMA: la primera implementación de código abierto de LLaMA basada en el aprendizaje reforzado a partir de la retroalimentación humana (RLHF)

Estás leyendo la publicación: Conozca ChatLLaMA: la primera implementación de código abierto de LLaMA basada en el aprendizaje reforzado a partir de la retroalimentación humana (RLHF)

Meta ha lanzado recientemente LLaMA, una colección de modelos básicos de lenguaje grande que van desde 7 a 65 mil millones de parámetros.

LLaMA está creando mucho entusiasmo porque es más pequeño que GPT-3 pero tiene un mejor rendimiento. Por ejemplo, la arquitectura 13B de LLaMA supera a GPT-3 a pesar de ser 10 veces más pequeña. Esta nueva colección de modelos fundamentales abre la puerta a un rendimiento de inferencia más rápido y asistentes en tiempo real similares a chatGPT a la vez que es rentable y se ejecuta en una sola GPU.

Sin embargo, LLaMA no se ajustó para tareas de instrucción con un proceso de entrenamiento de aprendizaje reforzado a partir de retroalimentación humana (RLHF).

La buena noticia es que hoy nebuly ha introducido ChatLLaMAla primera implementación de código abierto de LLaMA basada en RLHF:

Una implementación completa de código abierto que le permite crear un servicio de estilo ChatGPT basado en modelos LLaMA previamente entrenados.
En comparación con el ChatGPT original, el proceso de entrenamiento y la inferencia de GPU única son mucho más rápidos y económicos al aprovechar el tamaño más pequeño de las arquitecturas LLaMA.
ChatLLaMA tiene soporte incorporado para DeepSpeed ZERO para acelerar el proceso de ajuste.
La biblioteca también es compatible con todas las arquitecturas de modelos LLaMA (7B, 13B, 33B, 65B), para que pueda ajustar el modelo de acuerdo con sus preferencias de tiempo de entrenamiento y rendimiento de inferencia.

Si le gusta el proyecto, considere dejar una estrella en el repositorio de GitHub

https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama

ChatLLaMA le permite entrenar fácilmente arquitecturas basadas en LLaMA de manera similar a ChatGPT usando RLHF. Por ejemplo, a continuación se muestra el código para iniciar el entrenamiento en el caso de ChatLLaMA 7B.

from chatllama.rlhf.trainer import RLTrainer from chatllama.rlhf.config import Config path = “path_to_config_file.yaml” config = Config(path=path) trainer = RLTrainer(config.trainer) trainer.distillate() trainer.train() trainer .training_stats.plot()

Tenga en cuenta que debe proporcionar los pesos originales de Meta y su conjunto de datos personalizado antes de comenzar el proceso de ajuste. Alternativamente, puede generar su propio conjunto de datos utilizando los agentes de LangChain.

python generar_conjunto_de_datos.py

nebuly ha abierto el código completo para replicar la implementación de ChatLLaMA, lo que abre la posibilidad de que cada usuario ajuste sus propios asistentes personalizados de ChatLLaMA. La biblioteca se puede ampliar aún más con las siguientes adiciones:

Puntos de control con pesos ajustados
Técnicas de optimización para una inferencia más rápida
Soporte para empaquetar el modelo en un marco de implementación eficiente

Todos los desarrolladores están invitados a unirse a los esfuerzos de Nebuly para lograr asistentes similares a ChatGPT más eficientes y abiertos.

Puedes participar de las siguientes formas:

Envíe un problema o PR en GitHub
Únete a su Grupo de Discord para charlar

Conozca ChatLLaMA: la primera implementación de código abierto de LLaMA basada en el aprendizaje reforzado a partir de la retroalimentación humana (RLHF)

Otros temas interesantes: