İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

LLMScore ile Tanışın: Metinden Görüntüye Sentezde Metin İpuçları ve Sentezlenmiş Görüntüler Arasındaki Hizalamayı Değerlendirmek için Yeni Bir Yüksek Lisans Tabanlı Talimat Takip Eden Eşleştirme Hattı

Yazıyı okuyorsunuz: LLMScore ile Tanışın: Metinden Görüntüye Sentezde Metin İpuçları ve Sentezlenmiş Görüntüler Arasındaki Hizalamayı Değerlendirmek için Yeni Bir Yüksek Lisans Tabanlı Talimat İzleme Eşleştirme Hattı

Metinden görüntüye sentez araştırması son yıllarda önemli ölçüde ilerleme kaydetti. Bununla birlikte, değerlendirmelerin farklı amaçlara uyarlanması, metin ve görselin bileşik hizalamasını (örneğin, renk, sayı ve konum) etkili bir şekilde yakalama ve puanı anlaşılır bir şekilde üretme konusundaki zorluklar nedeniyle değerlendirme ölçümleri gecikmiştir. Yaygın olarak kullanılmasına ve başarılı olmasına rağmen, CLIPScore ve BLIP gibi metinden görüntüye sentez için yerleşik değerlendirme ölçümleri, metin ve görüntü arasında nesne düzeyinde hizalamanın yakalanmasında yardıma ihtiyaç duymuştur.

“Kırmızı kitap ve sarı vazo” metin mesajı Şekil 1’de Konsept Bağlaç veri setinden bir örnek olarak gösterilmektedir. Soldaki görünüm metin sorgusuyla hizalanır. Aynı zamanda doğru görüntü, kırmızı bir kitap, vazo için doğru renk ve ilave bir sarı çiçek sağlamaz. Mevcut metrikler (CLIP, NegCLIP, BLIP) her iki görüntü için de benzer puanlar tahmin ederken, doğru görüntüyü (solda) yanlış görüntüden (sağda) ayırt edemeyerek, insan yargıçlar doğru ve net bir değerlendirme yapabiliyor. (1,00 vs 0,45/0,55) genel olarak bu iki görüntü ve hata sayma hedefleri.

Ayrıca bu ölçümler, sentezlenen görüntülerin sağlanan metin istemleriyle nasıl hizalandığının ardında yatan mantığı gizleyen tek, opak bir puan sağlar. Ayrıca, bu modele dayalı önlemler katıdır ve farklı metinden resme değerlendirme hedeflerine öncelik veren birden fazla standarda bağlı kalamaz. Örneğin değerlendirme, bir görüntü düzeyinde (Genel) anlambilime veya bir öğe düzeyinde (Hata Sayısı) daha ayrıntılı bilgilere erişebilir. Bu sorunlar mevcut ölçümlerin subjektif değerlendirmelerle uyumlu olmasını engellemektedir. Bu çalışmada, Kaliforniya Üniversitesi, Washington Üniversitesi ve Kaliforniya Üniversitesi’nden araştırmacılar, uzun dil modellerinin (LLM’ler) güçlü akıl yürütme yeteneklerini ortaya çıkararak metin ve görüntü hizalamasını değerlendirmek için benzersiz bir çerçeve olan LLMScore’u tanıtıyor. görüntü dönüşümü. sentez.

Metin mesajında ​​belirtilen öğelerin ve özelliklerin doğruluğunun kontrol edilmesini içeren, metin ve görüntü hizalamasını değerlendirmenin insan yöntemi bir model olarak hizmet etti. LLMScore, birçok ayrıntı düzeyinde kompozisyona erişerek ve gerekçelerle uyum puanları üreterek insan incelemesini taklit edebilir. Bu, kullanıcılara modelin performansı ve sonuçların ardındaki motivasyonlar hakkında daha derin bir anlayış sağlar. LLMScore’u, görme ve dil modellerine ve LLM’ye dayalı görsel-dilbilimsel bilgileri toplar ve böylece bileşik metin-görüntü sentezinin değerlendirmesini geliştirmek için metin ve görüntüdeki çoklu ayrıntı düzeylerinin kompozisyonunu yakalar.

Yöntemleri, bir görüntüyü çok ayrıntılı (görüntü ve nesne düzeyinde) görsel açıklamalara dönüştürmek için dil ve görme modellerini kullanır ve bu da çok sayıda nesnenin kompozisyon özelliklerini dilde ifade etmemize olanak tanır. Metin ipuçları ve görseller arasındaki hizalamayı gerekçelendirerek, bu açıklamaları metin ipuçlarıyla birleştirir ve bunları GPT-4 gibi uzun dil modellerine (LLM’ler) girerler. Mevcut metrikler kompozisyonu yakalamakta zorlanıyor ancak LLMScore’ları bunu nesne düzeyinde metin ve görüntü hizalamasını tespit ederek yapıyor (Şekil 1). Bu, insan değerlendirmesiyle iyi ilişkilendirilen ve mantıksal gerekçelere sahip puanlarla sonuçlanır (Şekil 1).

Ek olarak, Yüksek Lisans’lara yönelik değerlendirme talimatlarını uyarlayarak, LLMSpuanınız farklı standartları (genel veya hata sayısı) uyarlanabilir bir şekilde takip edebilir. Örneğin, genel hedefi değerlendirmek için LLM’lerden metin mesajının ve görselin genel hizalamasını derecelendirmelerini isteyebilirler. Alternatif olarak, “Görüntüde kaç tane kompozisyon hatası var?” sorusunu sorarak hata sayımı hedefini onaylamalarını isteyebilirler. LLM sonucunun determinizmini korumak için, değerlendirme talimatında metinden resme modelinin farklı hata biçimleri hakkında da açık bilgi sağlarlar. Uyarlanabilirliği nedeniyle, sistemleri çeşitli metinden resme çalışma ve değerlendirme kriterleri için kullanılabilir.

Stable Diffusion ve DALLE gibi modern metinden görüntüye modeller, genel kullanıma (MSCOCO, DrawBench, PaintSkills) ve birleştirme amaçlarına yönelik hızlı veri kümeleri de dahil olmak üzere çeşitli veri kümeleri kullanılarak deneysel kurulumlarında test edilir. soyut kavramlar, Niteliklerin birleşimi, Bağlayıcı karşıtlık). LLMScore’un kullanımını doğrulamak ve ek eğitime ihtiyaç duymadan insan kararlarıyla uyumlu olduğunu göstermek için kapsamlı testler gerçekleştirdiler. Tüm veri setlerinde LLMS puanları en güçlü insan korelasyonuna sahipti. Kompozisyon veri setlerinde yaygın olarak kullanılan CLIP ve BLIP metriklerinden sırasıyla %58,8 ve %31,27 oranında daha iyi performans gösteriyorlar Kendall.

Sonuç olarak, metinden resme değerlendirme için büyük dil modellerinin etkinliğini gösteren ilk çaba olan LLMScore’u sağlıyorlar. Spesifik olarak, makalesi aşağıdakileri sağlar:

• LLMScore’u öneriyorlar. Bu yeni çerçeve, metinden görüntüye sentezde metin ipuçları ve sentezlenmiş görüntüler arasındaki hizalamayı değerlendirmek için çoklu ayrıntı düzeyini (görüntü düzeyinde ve nesne düzeyinde) doğru bir şekilde ifade eden puanlar sağlar.

• LLMScore’unuz, çeşitli değerlendirme yönergelerini (genel ve hata sayıları) takip ederek gerekçelerle birlikte doğru hizalama puanları üretir.

• LLMScore’u doğrulamak için çeşitli veri setleri (hem bileşimsel hem de genel amaçlı) kullanırlar. Yaygın olarak kullanılan ölçümler (CLIP, BLIP) arasında önerilen LLMScore en güçlü insan korelasyonunu elde eder.