Microsoft AI Açık Kaynak DeepSpeed Chat: ChatGPT benzeri modellerin eğitimi için uçtan uca bir RLHF hattı

Yazıyı okuyorsunuz: Microsoft AI Açık Kaynak DeepSpeed Chat: ChatGPT Benzeri Modellerin Eğitimi için Uçtan Uca RLHF Boru Hattı

ChatGPT benzeri kavramların dijital dünyada devrim niteliğinde bir etki yarattığını söylemek abartı olmaz. Bu nedenle AI açık kaynak topluluğu, ChatGPT tarzı modellerin daha kullanılabilir olmasını amaçlayan bazı projeler (ChatLLaMa, Alpaca vb.) üzerinde çalışıyor. Bu modeller son derece esnektir ve özetleme, kodlama ve çeviri gibi görevleri insan veya daha yüksek düzeyde uzmanlık düzeyinde gerçekleştirebilir.

Bu etkileyici çabalara rağmen, halka açık bir uçtan uca RLHF boru hattı hala ChatGPT benzeri sağlam bir modeli eğitemiyor. Eğitim verimliliği, bu tür bilgi işlem kaynaklarına erişim mevcut olsa bile, genellikle bu makinelerin yeteneklerinin %5’inden azdır. Çoklu GPU kümelerine erişime rağmen mevcut sistemler, milyarlarca parametreye sahip son teknoloji ürünü ChatGPT modellerinin basit, hızlı ve ucuz eğitimini destekleyemez.

Bu kısıtlamalar, InstructGPT tarafından kullanılan karmaşık RLHF eğitim akışının, daha geleneksel ön eğitim ve ince ayar akışları için optimize edilmiş mevcut DL sistemleri tarafından iyi bir şekilde desteklenmemesinden kaynaklanmaktadır. ChatGPT benzeri modelleri daha kullanılabilir hale getirmek ve RLHF eğitimini daha erişilebilir hale getirmek için Microsoft ekibi, ChatGPT benzeri modellerin eğitimi için uçtan uca bir RLHF hattı sunan DeepSpeed-Chat’i başlatıyor. Aşağıdaki özelliklere sahiptir:

1. ChatGPT’ye benzer modelleri eğitmek ve çıkarmak için uygun bir ortam: InstructGPT eğitimi, DeepSpeed-RLHF sistemi kullanılarak, önceden eğitilmiş bir Huggingface modeli üzerinde tek bir komut dosyasıyla çalıştırılabilir. Bu, kullanıcının ChatGPT’ye benzer bir model oluşturmasına olanak tanır. Model eğitildikten sonra konuşma etkileşimlerini test etmek için bir çıkarım API’si kullanılabilir.

2. DeepSpeed-RLHF boru hattı: DeepSpeed-RLHF işlem hattı, InstructGPT belgesindeki eğitim hattını büyük ölçüde kopyalar. Ekip, a) Denetimli ince ayar (SFT), b) Ödül modelinin ince ayarı ve c) İnsan geri bildirimiyle takviyeli öğrenme (RLHF) arasındaki üç adım arasında tam ve kesin bir uyum sağladı. Ayrıca, birden fazla kaynaktan gelen verileri kullanarak eğitime olanak tanıyan veri soyutlama ve birleştirme araçları da sağlarlar.

3. DeepSpeed-RLHF sistemi: RLHF için Hibrit Motor (DeepSpeed-HE), DeepSpeed’in eğitim ve çıkarım yeteneklerini birleştiren güçlü ve gelişmiş bir sistemdir. Hibrit motor, üretim için tensör paralelliği ve yüksek performanslı transformatör çekirdekleri gibi Derin Hız Çıkarımı optimizasyonlarının yanı sıra ZeRO ve LoRA gibi RLHF’nin birçok bellek optimizasyon stratejisinden yararlanarak RLHF çıkarımı ve eğitim modları arasında kolayca geçiş yapabilir. RLHF’nin çeşitli aşamalarında bellek yönetimini ve veri aktarımını daha da optimize etmek için DeepSpeed-HE aynı zamanda tüm RLHF sürecini de anlıyor. DeepSpeed-RLHF sistemi, AI topluluğunun karmaşık RLHF modellerine ilişkin eğitime hızlı, uygun maliyetli ve rahat bir şekilde erişmesini sağlayarak, ölçekte benzeri görülmemiş bir verimlilik elde ediyor.

4. Verimlilik ve Uygun Fiyat: DeepSpeed-HE geleneksel sistemlere göre 15 kat daha hızlı olduğundan RLHF eğitimi hızlı ve ekonomik bir şekilde tamamlanabilmektedir.

5. Mükemmel ölçeklenebilirlik: DeepSpeed-HE’nin çok düğümlü, çok GPU’lu sistemler üzerindeki yüksek ölçeklenebilirliği, yüz milyarlarca parametreye sahip modelleri barındırmasına olanak tanır.

6. RLHF eğitimine erişimin genişletilmesi: DeepSpeed-HE, çoklu GPU sistemlerine erişimi olmayan veri bilimcilerinin yalnızca oyuncak RLHF modelleri değil, aynı zamanda gerçek dünya ortamlarına yerleştirilebilecek devasa, güçlü modelleri de eğitim için tek bir GPU ile oluşturmalarına olanak tanır.

Araştırmacılar, DeepSpeed-Chat’e eksiksiz bir uçtan uca eğitim hattı eklediler ve eğitim sürecini mümkün olduğunca verimli hale getirmek için bunu InstructGPT’den sonra modellediler.

Üretim süreci üç aşamadan oluşur:

1. Önceden eğitilmiş dil modellerinde, çeşitli sorgulara verilen insan yanıtlarının dikkatle seçildiği denetimli ince ayar (SFT) kullanılarak ince ayar yapılır.

2. Daha sonra ekip, aynı sorguya verilen çok sayıda yanıtın insan tarafından sağlanan derecelendirmelerini içeren bir veri kümesi kullanarak farklı bir (RW) modelin (genellikle SFT’den daha küçük) eğitilmesini içeren “ödül modeli ince ayarı” gerçekleştirir.

3. Son olarak, RLHF eğitiminde, yakın politika optimizasyonu (PPO) algoritması, SFT modelini RW modelinden gelen ödül geri bildirimiyle daha da ayarlamak için kullanılır.

Yapay zeka topluluğu, açık kaynak yapısı sayesinde artık DeepSpeed-Chat’e erişebiliyor. DeepSpeed GitHub web sitesinde araştırmacılar, kullanıcıları sorunları bildirmeye, PR göndermeye ve tartışmalara katılmaya davet ediyor.

Microsoft AI Açık Kaynak DeepSpeed ​​Chat: ChatGPT benzeri modellerin eğitimi için uçtan uca bir RLHF hattı

Size şunları öneriyoruz: