LLaMA Adaptörüyle Tanışın: Stanford Alpaca tarafından sağlanan 52.000 veriyi kullanarak talimatları takip eden LLaMA modellerine ince ayar yapmak için hafif bir uyarlama yöntemi

Yazıyı okuyorsunuz: LLaMA Adaptörüyle Tanışın: Stanford Alpaca Tarafından Sağlanan 52K Veriyi Kullanarak LLaMA Modellerinde İnce Ayar Yapmak İçin Hafif Bir Uyarlama Yöntemi

Büyük ölçekli derlem ve son teknoloji donanım, LLM’lerin olağanüstü anlayışa ve üretken güce sahip modeller oluşturmasına olanak tanıyarak dil sorunları için çıtayı yükseltir. ChatGPT1 ve GPT-3.5 gibi öğretim takip modellerindeki son gelişmeler büyük ilerleme kaydetmiştir (text-davinci-003). Normal dilde komutlar veya talimatlar verildiğinde profesyonel, konuşmaya özgü yanıtlar verebilirler. Ancak kapalı kaynağın sınırlı olması ve geliştirme maliyetlerinin yüksek olması, talimat takip modellerinin yaygınlaşmasını önemli ölçüde engellemektedir.

Stanford Alpaca araştırmacıları, bir LLM’nin veya LLaMA’nın erişilebilir ve ölçeklenebilir bir talimat takip modeline dönüştürülmesini önerdi. Alpaca, kendi kendini eğitmek ve eğitim verilerini insan tarafından yazılan 175 talimat-sonuç çiftinden 52K’ya çıkarmak için GPT-3.5’i kullanıyor. Bu, LLaMA’daki tüm 7B parametrelerini optimize etmek için Alpaca’yı kontrol eder ve sonuçta GPT-3.5’e benzer performans gösteren mükemmel bir model ortaya çıkar. Alpaca’nın verimliliğine rağmen, büyük ölçekli LLaMA hâlâ çok fazla ince ayar gerektiriyor. Bu zaman alıcıdır, hesaplama gerektirir, birden fazla yöntemle uyumsuzdur ve diğer alt senaryolara uyarlanması zordur.

Şangay Yapay Zeka Laboratuvarı, CUHK MMLab ve Kaliforniya Üniversitesi’nden bir grup araştırmacı, LLaMA Adaptörünü sundu. Bu etkili ince ayar tekniği, LLaMA’yı talimatları takip edebilen bir modele dönüştürür. LLaMA transformatörünün üst katmanlarında, araştırmacılar giriş talimatı belirteçlerinin önüne bir dizi öğrenilebilir uyarlanabilir ipucu ekler. Bu talimatlar, bu istemler kullanılarak uyarlanabilir bir şekilde LLaMA’ya enjekte edilir.

Ekip, ilk eğitim döneminde adaptasyon sinyallerinin gürültüsünü gidermek için, eklenen katmanlardaki varsayılan dikkat mekanizmalarını, eğitilebilir bir aktivasyon faktörü ile sıfır başlangıçlı dikkat olarak değiştirdi. Sıfır vektörlerle başlatılan geçitleme, LLaMA’daki ilk bilgiyi koruyabilir ve yavaş yavaş eğitim sinyallerini ekleyebilir. Bu, son modelin talimatları daha iyi takip etmesine ve ince ayarlı olduğundan öğrenme istikrarını korumasına yardımcı olur.

Genel olarak LLaMA-Adaptör aşağıdaki dört özelliği sergiler:

1,2 milyon parametre: Önceden eğitilmiş LLaMA donar ve 7B parametre setinin tamamını güncellemek yerine yalnızca üstte 1,2 milyon parametre bulunan adaptasyon ipuçlarını öğrenir. Ancak bu, 7B Alpaka’da ustalaştıktan sonra benzer bir eğitimin olduğunu göstermektedir.
Bir saat boyunca ince ayar. Sekiz A100 GPU ile LLaMA-Adaptör yakınsaması bir saatten kısa sürer; bu, hafif parametreler ve sıfır başlangıç kapısı sayesinde Alpaca’dan üç kat daha hızlıdır.
Bilgiyle bağlantı kurun. Uygun adaptörlerinizi takmak için uyarlanabilir ve LLaMA’ya çeşitli koşullar için çeşitli uzmanlık sağlar. Bu nedenle her bağlamda 1,2M’lik bir adaptörün saklanması yeterlidir.
Çok modlu durum: LLaMA-Adaptör, çok modlu akıl yürütme için görüntü girişini ve metin talimatlarını kabul edecek şekilde genişletilebilir. LLaMA-Adapter, adaptasyon ipuçlarına görüntü belirteçlerini dahil ederek ScienceQA değerlendirmesinde rekabetçi bir performans elde ediyor.

Ekip, ses ve video gibi daha çeşitli multimodal girişleri LLaMA-Adaptör’e dahil etmeyi planlıyor. Daha büyük LLaMA modelleri (parametreler 33B, 65B) ve çeşitli kriterler üzerinde ek araştırmalar yapacaklar.

Size şunları öneriyoruz: