Spectformer ile tanışın: görüntü tanıma görevleri için transformatör performansını artıran, spektral ve çok kafalı dikkat katmanlarını birleştiren yeni bir transformatör mimarisi

Yazıyı okuyorsunuz: Spectformer ile Tanışın: Görüntü Tanıma Görevleri için Transformatör Performansını İyileştiren Spektral ve Çok Kafalı Dikkat Katmanlarını Birleştiren Yeni Bir Transformer Mimarisi

SpectFormer, çok başlı öz dikkat ve spektral katmanların bir kombinasyonunu kullanarak görüntüleri işlemek için Microsoft araştırmacıları tarafından önerilen yeni bir transformatör mimarisidir. Makale, SpectFormer tarafından önerilen mimarinin uygun özellik temsillerini nasıl daha iyi yakalayabileceğini ve Vision Transformer’ın (ViT) performansını nasıl geliştirebileceğini vurgulamaktadır.

Çalışma ekibinin baktığı ilk şey, çeşitli spektral ve çok kafalı dikkat katmanları kombinasyonlarının, yalnızca dikkat veya spektral modeller kullanan modellerle nasıl karşılaştırıldığıydı. Grup, en umut verici sonuçların, başlangıçta Fourier Dönüşümü kullanılarak uygulanan spektral katmanları ve ardından çok kafalı dikkat katmanlarını içeren önerilen SpectFormer tasarımından geldiği sonucuna vardı.

SpectFormer mimarisi dört temel bölümden oluşur: bir sınıflandırma başlığı, dikkat katmanlarının izlediği bir dizi spektral katmandan oluşan bir transformatör bloğu ve bir yama yerleştirme katmanı. Boru hattı, görüntü bilgilerinin frekans bazlı analizini gerçekleştirir ve bir Fourier dönüşümü kullanarak görüntü belirteçlerini Fourier alanına dönüştürerek anlamlı özellikler yakalar. Sinyal daha sonra ters Fourier dönüşümü, öğrenilebilir ağırlık parametreleri ve geçit algoritmaları kullanılarak spektral uzaydan fiziksel uzaya döndürülür.

Ekip, SpectFormer mimarisini doğrulamak için ampirik doğrulamayı kullandı ve CIFAR-10 ve CIFAR-100 veri kümelerinde transfer öğrenme modunda oldukça iyi çalıştığını gösterdi. Bilim adamları ayrıca MS COCO veri kümesinde değerlendirilen nesne algılama ve örnek bölümlendirme görevlerinin SpectFormer kullanılarak tutarlı sonuçlar verdiğini de gösterdi.

Araştırmacılar, çeşitli nesne tanımlama ve görüntü sınıflandırma görevlerinde SpectFormer’ı çok kafalı öz dikkat tabanlı DeIT, paralel mimarili LiT ve spektral tabanlı GFNet ViT’lerle karşılaştırdılar. Çalışmalarda SpectFormer, mevcut standartları %85,7 oranında aşan ImageNet-1K veri setinde tüm temel çizgilerden daha iyi performans gösterdi ve en yüksek doğruluğu elde etti.

Sonuçlar, spektral ve çok kafalı dikkat katmanlarını birleştiren SpectFormer’ın önerilen tasarımının, uygun özellik temsillerini daha etkili bir şekilde yakalayabildiğini ve ViT’nin performansını artırabildiğini göstermektedir. SpectFormer sonuçları, her iki tekniği birleştiren görüntü transformatörleri üzerine daha ileri çalışmalar için umut sunuyor.

Ekip bu alana iki katkı yaptı: İlk olarak, görüntü işleme verimliliğini artırmak için spektral ve çok kafalı dikkat katmanlarını birleştiren yeni bir tasarım olan SpectFormer’ı önerdiler. İkinci olarak, SpectFormer’ın etkinliğini, çoklu görüntü sınıflandırma ve nesne algılama görevlerinde doğrulayarak ve alanda ön sıralarda yer alan ImageNet-1K veri kümesinde birinci sınıf doğruluk elde ederek gösterirler.

Sonuçta SpectFormer, spektral ve çok kafalı dikkat katmanlarını birleştiren görüntü transformatörleri üzerine gelecekteki çalışmalar için uygun bir yol sunuyor. Önerilen SpectFormer tasarımı, daha fazla araştırma ve doğrulama ile görüntü işleme hatlarında önemli bir rol oynayabilir.

Size şunları öneriyoruz: