Yeni Yapay Zeka (AI) Çalışması, Üretken NeRF ile 3D Farkındalıklı Harmanlama Tekniği Öneriyor

Yazıyı okuyorsunuz: Yeni yapay zeka (AI) çalışması, üretken NeRF ile 3D bilinçli harmanlama tekniğini öneriyor

Görüntü birleştirme, yapay zeka bileşeninin en bilinen dallarından biri olan bilgisayarlı görmede ana yöntemdir. Amaç, her bir girdi görüntüsünün en iyi yönlerini bir araya getiren benzersiz bir kombinasyon oluşturmak için iki veya daha fazla görüntüyü karıştırmaktır. Bu yöntem, görüntü düzenleme, bilgisayar görüntüleri ve tıbbi görüntüler dahil olmak üzere çeşitli uygulama alanlarında yaygın olarak kullanılmaktadır.

Görüntü harmanlama, görüntü bölümlendirme, nesne tanımlama ve görüntü süper çözünürlüğü gibi yapay zeka faaliyetlerinde sıklıkla kullanılmaktadır. Robotik, otonom sürüş ve gözetim gibi birçok kullanım için gerekli olan görüntü netliğini geliştirmek için gereklidir.

Yıllar boyunca, esas olarak bir görüntünün 2 boyutlu afin dönüşümü yoluyla deforme edilmesine dayanan çeşitli görüntü harmanlama teknikleri oluşturuldu. Ancak bu yaklaşımlar, poz veya şekil gibi 3 boyutlu geometrik özelliklerdeki farklılığı hesaba katmamaktadır. Tek bir görünümden 3 boyutlu yapının çıkarımını gerektirdiğinden 3 boyutlu hizalamayı başarmak çok daha zordur.

Bu sorunu çözmek için, üretken sinirsel radyasyon alanlarına (NeRF) dayanan 3 boyutlu uyumlu bir görüntü birleştirme yöntemi önerilmiştir.

Üretken NeRF’lerin amacı, yalnızca 2B tek görüntülü görüntü koleksiyonlarını kullanarak 3B görüntüleri sentezlemeye yönelik bir strateji öğrenmektir. Bu nedenle yazarlar giriş görüntülerini üretken NeRF’lerin hacim yoğunluğu temsiline yansıtırlar. Verilerin ve operasyonların boyutsallığını ve karmaşıklığını azaltmak için, bu NeRF’lerin gizli temsil alanlarında 3D bilinçli harmanlama gerçekleştirilir.

Spesifik olarak formüle edilmiş optimizasyon problemi, gizli kodun birleştirilmiş görüntünün sentezi üzerindeki etkisini dikkate alır. Amaç, referans görüntülere göre ön planı düzenlemek ve orijinal görüntünün arka planını korumaktır. Örneğin, eğer dikkate alınan iki görüntü yüz ise, çerçeve orijinal görüntünün yüz özelliklerini ve özelliklerini referans görüntününkilerle değiştirmeli, geri kalanını (saç, boyun, yaş, çevre vb.) değiştirmeden bırakmalıdır.

Aşağıdaki görüntüde önceki stratejilerle karşılaştırıldığında mimariye genel bir bakış önerilmektedir.

İlk yöntem, hizalama olmadan iki 2 boyutlu görüntünün tek 2 boyutlu birleşiminden oluşur. Bu 2 boyutlu harmanlama yönteminin, üretken NeRF’lerle 3 boyutlu farkındalıklı hizalamayla desteklenmesinde bir gelişme bulunabilir. 3D bilgiden daha fazla yararlanmak için son mimari, 2D piksel alanı yerine NeRF gizli temsil alanlarında iki görüntü çıkarır.

3 boyutlu hizalama, her giriş görüntüsünden kamera pozunu çıkaran bir CNN kodlayıcı ve görüntünün kendisinin gizli koduyla sağlanır. Referans görüntü, orijinal görüntüyü yansıtacak şekilde doğru şekilde döndürüldükten sonra, her iki görüntünün NeRF temsilleri hesaplanır. Son olarak, 3 boyutlu dönüşüm matrisi (ölçek, çeviri) orijinal görüntüden tahmin edilir ve anlamsal olarak doğru bir kombinasyon elde etmek için referans görüntüye uygulanır.

Farklı poz ve ölçeklere sahip hizalanmamış görüntülere ilişkin sonuçlar aşağıda rapor edilmiştir.

Yazarlara ve deneylerine göre bu yöntem, fotogerçekçilik ve girdi görüntülerine uygunluk açısından hem klasik hem de öğrenmeye dayalı yöntemlerden daha iyi performans gösteriyor. Ayrıca, gizli alan temsillerinden yararlanarak bu yöntem, karıştırma sırasındaki geometrik ve renk değişikliklerini çözebilir ve görsel olarak tutarlı sonuçlar yaratabilir.

Bu, 3D’yi üretken sinirsel radyasyon alanlarıyla (NeRF) bilinçli bir şekilde birleştirmek için yeni bir yapay zeka çerçevesinin taslağıydı.

Bu çerçeveyle ilgileniyorsanız veya daha fazla bilgi edinmek istiyorsanız, belgeye ve proje sayfasına aşağıdaki bağlantıdan ulaşabilirsiniz.

Size şunları öneriyoruz: