Google AI, evrişimli sinir ağının (CNN) sabit giriş boyutu üzerindeki kısıtlamalarından kaçınmak ve görüntü kalitesini etkili bir şekilde tahmin etmek için yama tabanlı çok ölçekli bir görüntü kalitesi transformatörü (MUSIQ) önermektedir.

Yazıyı okuyorsunuz: Google AI, sabit giriş boyutunda evrişimli sinir ağı (CNN) kısıtlamalarını önlemek ve görüntü kalitesini etkili bir şekilde tahmin etmek için yama tabanlı çok ölçekli bir görüntü kalitesi transformatörü (MUSIQ) öneriyor…

Görüntü kalitesi değerlendirmesi (IQA), izleme deneyimini anlamak ve geliştirmek için çok önemli bir çalışma alanıdır. Kullanıcılara daha iyi bir görüntüleme deneyimi sağlamak için görüntülerin estetik ve teknik kalitesini anlamak hayati önem taşımaktadır. IQA, bir görüntü ile kullanıcının bu görüntünün kalitesine ilişkin değerlendirmesi arasında bir bağlantı oluşturmak için modeller kullanır. NIMA gibi modern, en gelişmiş IQA teknikleri, evrişimli sinir ağlarına (CNN) dayanmaktadır. Ancak toplu eğitimin sabit girdiye göre kısıtlanması sıklıkla performansını düşürür. Giriş fotoğrafları genellikle buna uyum sağlamak için belirli bir şekilde büyütülür ve kırpılır, bu da görüntü kalitesinden ödün verir.

Google Araştırma, bu sorunlara çözüm bulmak amacıyla ICCV 2021’de yayınlanan “MUSIQ: Multiscale Image Quality Transformer”ı tanıttı. Bu yama tabanlı çok ölçekli görüntü kalitesi transformatörü (MUSIQ), sabit giriş boyutundaki CNN kısıtlamalarını atlayarak yerel çözünürlükteki görüntülerdeki görüntü kalitesini doğru bir şekilde tahmin edebilir. Önerilen bu yöntem, çok ölçekli görüntü gösterimini kullanarak farklı ayrıntı düzeylerinde görüntü kalitesini yakalayabilir. Çok ölçekli gösterimde konumsal yerleştirmeyi desteklemek için, tek bir karma tabanlı 2B uzamsal yerleştirme ve ölçek yerleştirme de önerilmektedir. MUSIQ, değerlendirilecek dört büyük IQA veri seti üzerinde test edildi. PaQ-2-PiQ, KonIQ-10k ve SPAQ teknik kalite veri setlerinde tutarlı son teknoloji sonuçlar ve AVA estetik kalite veri setinde en son teknoloji modellere eşdeğer performans gösterdi.

MUSIQ’un ana avantajı, IQA’yı tam boyutlu girdi görüntüleri kullanarak öğretme sorununu üstlenmesidir. Genellikle belirli bir çözünürlükle sınırlı olan CNN modellerinin aksine, çeşitli çözünürlük ve en boy oranlarına sahip girişleri kabul edebilir. Bunu yapmak için, ilk olarak hem orijinal çözünürlükteki görüntüyü hem de azaltılmış varyasyonlarını kapsayan giriş görüntüsünün çok ölçekli bir temsili oluşturuldu. Görüntü piramidi oluşturulduktan sonra görüntüler çeşitli ölçeklerde sabit boyutlu parçalara bölünerek modele beslenir. Kompozisyonu korumak için yeniden boyutlandırma sonrasında görüntünün en boy oranı korunur.

Çoklu en-boy oranlı çoklu ölçekli girdinin, yamaları oluşturan farklı çözünürlüklerdeki görüntüler gibi piksel, uzamsal ve ölçek bilgilerini toplayan bir dizi belirteç halinde kodlanması gerekir. Ekip, bunu gerçekleştirmek amacıyla MUSIQ için üç kodlama öğesi oluşturdu. Çok ölçekli gösterimden alınan yamaları kodlamak için birinci bileşene bir yama kodlama modülü dahil edilmiştir. İkinci bileşen, her bir yama için 2 boyutlu uzamsal konumu kodlamak üzere benzersiz bir karma tabanlı uzamsal yerleştirme modülünden oluşur. Üçüncü bileşen, farklı ölçekleri kodlamak için öğrenilebilir bir ölçek yerleştirmedir. Araştırmacılar, çok ölçekli girişi bir dizi jeton olarak başarıyla kodladılar ve bunları daha sonra Transformer kodlayıcıya giriş olarak kullandılar.

Araştırmacılar, nihai görüntü kalitesi puanı tahminine ek bir öğrenilebilir “sınıflandırma belirteci” (CLS) eklemek için geleneksel prosedürü izlediler. Görüntünün son temsili, transformatör kodlayıcının çıkışındaki CLS belirtecinin durumudur. Ayrıca, IQS’yi tahmin etmek için üstüne tamamen bağlantılı bir katman inşa edilmiştir. MUSIQ, tüm Transformer çeşitleriyle uyumludur çünkü yalnızca topluluk için faydalı olacak bir diğer kritik özellik olan giriş kodlamasını değiştirir.

MUSIQ, çeşitli büyük IQA veri setlerinde değerlendirildi. Her veri seti için, model tahmini ile insan değerlendiricilerin ortalama görüş puanı arasındaki, Spearman’ın sıra korelasyon katsayısı (SRCC) ve Pearson’un doğrusal korelasyon katsayısı (PLCC) ile ölçülen korelasyon sağlandı. Model tahminleri ile insan değerlendirmesi arasındaki daha iyi uyum, daha yüksek PLCC ve SRCC ile gösterilmektedir. MUSIQ’un PaQ-2-PiQ, KonIQ-10k ve SPAQ üzerinde diğer yaklaşımlara göre daha iyi performans gösterdiği sonucuna varıldı. Özellikle, PaQ-2-PiQ test seti yalnızca her biri 640 pikselden daha büyük en az bir boyuta sahip olan oldukça büyük görüntülerden oluşur. Ölçeklendirme gerektiren standart derin öğrenme yöntemleri için bu oldukça zordur. Tam boyutlu test setinde MUSIQ, önceki tekniklere göre gözle görülür derecede daha iyi performans göstererek sistemin dayanıklılığını ve verimliliğini ortaya koyuyor.

Önceki CNN tabanlı tekniklerin, her görüntü için 20’ye kadar farklı mahsulün numunelerini test etmek için sıklıkla ihtiyaç duyulduğunu da belirtmek önemlidir. Ek olarak, CNN tabanlı yaklaşımlar çeşitli mahsulleri örneklediğinden, her mahsul için çıkarım maliyetini arttırırken sonuca rastgelelik getirebilirler. Öte yandan, MUSIQ’un çıkarımı yalnızca bir kez çalıştırması gerekir çünkü tam boyutlu görüntüyü girdi olarak kabul eder ve bu nedenle görüntünün tamamındaki bilgilerin en uygun şekilde toplanmasını doğrudan öğrenebilir. Ekip ayrıca MUSIQ’un ölçekli fotoğraflarda daha küresel alanlara, yüksek çözünürlüklü görüntülerde ise daha ayrıntılı alanlara odaklanma eğiliminde olduğunu fark etti. Bu, modelin çeşitli ayrıntı düzeylerinde görüntü kalitesini nasıl yakalayabildiğini gösterir.

Basitçe söylemek gerekirse, Google’ın Çok Ölçekli Görüntü Kalitesi Transformatörü (MUSIQ), çeşitli çözünürlük ve en boy oranlarına sahip tam boyutlu görüntü girişini işleyebilir. Model, giriş görüntüsünü küresel ve yerel görünümlerle çok ölçekli bir temsile dönüştürerek çeşitli ayrıntı düzeylerinde görüntü kalitesini yakalayabilir. MUSIQ, IQA için oluşturulmuş olmasına rağmen görev etiketlerinin görüntü çözünürlüğüne ve en boy oranına duyarlı olduğu çeşitli durumlarda kullanılabilir. Model hakkında daha fazla bilgiyi kendi içinde bulabilirsiniz. GitHub deposu.

Bu makale Marktechpost personeli tarafından ‘araştırma çalışmasına dayalı olarak bir araştırma özeti makalesi olarak yazılmıştır’MUSIQ: Çok Ölçekli Görüntü Kalitesi Transformatörü‘. Bu araştırmanın tüm kredisi bu projenin araştırmacılarına aittir. Görüntüle kağıt, github bağlantısı Ve referans makalesi.

Lütfen katılmayı unutmayın ML alt dizimiz

Yüzlerce Harika Yapay Zeka Aracını bulmak için https://aitoolsclub.com adresini ziyaret edin

Size şunları öneriyoruz: