Bu AI makalesi KENDİ KENDİNİ RAFİNE EDER: yinelemeli geri bildirim ve iyileştirme yoluyla ilk LLM sonuçlarını iyileştirmeye yönelik bir çerçeve sunar.

Gönderiyi okuyorsunuz: Bu AI makalesi KENDİ KENDİNİ RAFİNE EDİLMİŞTİR: Yinelemeli geri bildirim ve iyileştirme yoluyla ilk LLM sonuçlarını iyileştirmeye yönelik bir çerçeve sunmaktadır.

Yinelemeli iyileştirme, insanın problem çözmesinin önemli bir yönüdür. Yinelemeli iyileştirme, ilk taslağın oluşturulmasını ve ardından bunu kendi kendine geri bildirim yoluyla geliştirmeyi içeren bir süreçtir. Örneğin, bir iş arkadaşına bir belge istemek için e-posta yazarken, kişi öncelikle “ayrıntıları bana hemen ver” gibi doğrudan bir istek kullanır. Ancak biraz düşündükten sonra yazar, bu ifadenin düşmanca olarak değerlendirilebileceğini fark etti ve onu “Bana verileri sağlayabilir misiniz?” olarak değiştirdi. Yinelemeli geri bildirim ve modifikasyon kullanarak, bu çalışmada büyük dil modellerinin (LLM’ler) insanlarda bu bilişsel süreci başarılı bir şekilde taklit edebildiğini gösterdiler.

LLM’ler ilk aşamada tutarlı sonuçlar üretme kapasitesine sahip olsa da, özellikle birden fazla hedefi olan görevler (cevabın ilgili, çekici ve güvenli kılınması gibi kriterlerle diyalog yanıtları oluşturmak gibi) veya daha karmaşık gereksinimleri ele alırken genellikle yetersiz kalırlar. Daha az net hedeflere sahip (örneğin, programın okunabilirliğini artırmak). Modern Yüksek Lisanslar bu gibi durumlarda anlaşılır sonuçlar yaratabilmektedir. Yine de, tüm atama gereksinimlerinin karşılandığından ve uygun kalite seviyesine ulaşıldığından emin olmak için yinelemeli iyileştirme gereklidir.

Üçüncü taraf izleme ve ödül modellerine dayanan gelişmiş yöntemler, çok büyük miktarda eğitim verisi veya pahalı insan açıklamaları gerektirir ve bunların elde edilmesi genellikle pratik değildir. Bu dezavantajlar, çok az denetimle birçok iş için kullanılabilecek, daha uyarlanabilir ve etkili bir metin oluşturma yöntemine olan ihtiyacın altını çiziyor. Bu çalışmada CMU, Allen Enstitüsü, Washington Üniversitesi, NVIDIA, UCSD ve Google Research’ten araştırmacılar, SELF-REFINE’ın bu sınırlamaların üstesinden geldiğini ve maliyetli bir insan geri bildirim döngüsü olmadan insan yaratıcı üretim sürecini daha iyi yeniden ürettiğini öne sürüyor. (Şekil 1).

KENDİNİ RAFİNE’nin iki yarısı, GERİ BİLDİRİM ve RAFİNE, yüksek kaliteli sonuçlar üretmek için yinelenen bir döngüde birlikte çalışır. Geri bildirim (1) almak için, M (0) modeli tarafından üretilen bir ilk taslak olan aynı M (1) modelini iletirler. Aynı model (3), başlangıçta üretilen çıktıyı yinelemeli olarak iyileştiren (0) orijinal çıktı hakkında geri bildirim alır. Bu prosedürün yinelemeli tekrarı, model daha fazla iyileştirmenin gerekli olmadığına karar verene kadar devam eder ve bu noktada süreç sona erer. Bu çalışmanın ana tezi, birkaç çekim durumunda geri bildirim ve iyileştirmeyi aynı temel dil modelinin ele aldığıdır.

SELF-REFINE, NL geri bildirimini etkili bir şekilde kullanarak üretimi iyileştirmeye yönelik ilk yinelemeli stratejiyi sağlar.

Şekil 1’de prosedür bir örnekte gösterilmektedir. Birçok alanı kapsayan ve gözden geçirme yeniden yazma, kısaltma oluşturma, kısıtlı oluşturma, anlatı oluşturma, kodu yeniden yazma, yanıt oluşturma ve toksisitenin ortadan kaldırılması gibi geri bildirim ve inceleme teknikleri gerektiren çeşitli görevleri tamamlamak için KENDİ KENDİNİ RAFİNE kullanırlar. Temel bileşenleri, birkaç adımlı yönlendirme stratejisi kullanılarak başlatılır ve bu, model öğrenimini desteklemek için birkaç örnek kullanmamıza olanak tanır. Deneyleri, bileşen analizini, çeşitli görevleri, faydalı geri bildirimlerin oluşturulmasını ve durdurma kriterlerini içeren yinelemeli yaklaşımının, bu alanda gelecekteki araştırmalara rehberlik etmesi amaçlanmaktadır.

Katkıları özetle şunlardır:

Yüksek Lisans’ların çeşitli görevlerde kendilerini geliştirmelerine yardımcı olmak için, geri bildirimlerinizi tekrar tekrar kullanarak sonuçlarını iyileştirmelerine olanak tanıyan benzersiz bir teknik olan SELF-REFINE’ı öneriyorlar. Önceki çabaların aksine, yöntemleri, takviyeli öğrenmeyi veya denetimli eğitim verilerini kullanan tek bir Yüksek Lisans gerektirir.
Yedi farklı görev (incelemenin yeniden yazılması, kısaltmanın oluşturulması, hikayenin oluşturulması, kodun yeniden yazılması, yanıt oluşturulması, kısıtlanmış oluşturma ve zehirden arındırma) üzerinde kapsamlı deneyler yürütüyorlar ve SELF-REFINED’ın en az %5 daha iyi performans gösterdiğini ve bazen %40’a kadar çıkabildiğini gösteriyorlar. GPT-3.5 ve hatta GPT-4 gibi doğrudan nesil güçlü jeneratörlerden % daha iyi.

Size şunları öneriyoruz: