NeROIC ile Tanışın: Vahşi Doğada Görüntü Nesnesi Edinimi için Verimli Bir Yapay Zeka (AI) Çerçevesi

Şu yazıyı okuyorsunuz: NeROIC ile Tanışın: Vahşi Doğada Görüntü Nesnesi Edinimi için Verimli Bir Yapay Zeka (AI) Çerçevesi

Makine öğreniminin önemi teknoloji dünyasında giderek artıyor. Bilgisayarlar daha gelişmiş ve güçlü hale geldikçe, verileri her zamankinden daha hızlı ve daha doğru işleyebiliyorlar. Makine öğrenimindeki son gelişmeler, görsel hesaplama problemlerini çözmek için sahnelerin veya nesnelerin uzay ve zamandaki fiziksel özelliklerini parametreleyen koordinat tabanlı sinir ağlarının kullanılmasına olan ilgiyi artırdı. Sinir alanları olarak bilinen bu yöntemler, 3 boyutlu şekil sentezi, insan vücudu animasyonu, 3 boyutlu yeniden yapılandırma ve poz tahmini için başarıyla kullanılmıştır.

Seyrek kalibre edilmiş görüntülerden statik bir sahnenin yerel opaklığını ve görünüme bağlı parlamasını temsil etmeyi öğrenen Nöral Parlaklık Alanları (NeRF) modeli, sinir alanlarını kullanan en yeni çalışmalardan biridir. Bu model, yüksek kaliteli yeni görünüm sentezine (NVS) olanak tanır. NeRF’in kalitesi ve yetenekleri büyük ölçüde geliştirilmiş olsa da (örneğin, mobil veya katı olmayan içerik açısından), hâlâ karşılanması gereken bazı önemsiz olmayan gereksinimler vardır. Örneğin, bir nesnenin yeni görünümlerini sentezlemek için, aydınlatma ve arka plan koşullarının gözlemlenmesi ve düzeltilmesi gerekir ve birden fazla görünümden alınan görüntüler veya video dizileri tek bir oturumda kaydedilmelidir.

Örneğin, internette mobilya, oyuncak veya araç gibi aynı öğelere ait sayısız görsel bulunabilir. Bu nesnelerin yüksek kaliteli yapısı ve görünümü, çevreden izole edilerek yakalanmalıdır. Bu tür nesnelerin segmentlere ayrılması, bir nesnenin görüntülerden sayısallaştırılması ve yeni bir arka planla birleştirilmesi gibi uygulamalar için bir ön koşuldur. Ancak bu koleksiyonlardaki nesnelerin ayrı ayrı fotoğraflarını çekmek için kullanılan arka planlar, aydınlatma ayarları ve kamera ayarları genellikle oldukça değişkendir. Bu nedenle, kontrollü ortamlardan gelen veriler için oluşturulan nesne sayısallaştırma teknikleri, bu tür doğal ortamlar için uygun değildir.

Çevrimiçi görüntü koleksiyonlarından nesnelerin sinirsel temsili için yeni bir yaklaşım (NeROIC) yukarıda belirtilen sorunları çözmek için önerilmiştir. Yöntem, NeRF’yi temel alıyor ve çevrimiçi görüntülerde sıklıkla görüldüğü gibi, çok farklı koşullar altında çekilen seyrek görüntülerin yüksek kalitede yakalanmasını sağlayan birkaç temel bileşene sahip. Çoğu fotoğraf, aynı nesnelerle bile olsa, genellikle çeşitli ışık, kamera, ortam ve poz koşullarında çekilebiliyor ve bu da çoğu durumda NeRF tabanlı yaklaşımların zorlanmasına neden oluyor.

Aşağıda önerilen tekniğe genel bir bakış yer almaktadır.

Bir öğeyi (veya aynı nesnenin varyasyonlarını) çeşitli ortamlarda gösteren seyrek bir fotoğraf koleksiyonu ve nesnenin alanını tanımlayan bir dizi ön plan maskesi girdileri oluşturur. Model, ilk adımda fiziksel içeriğin nerede olduğunu gösteren bir yoğunluk alanını öğrenerek nesnenin geometrisini hesaplar. Statik ve geçici radyasyon verilerini ayrı ayrı hesaba katmak ve görüntü tabanlı izleme sağlamak için bu adımda iki MLP işlevi kullanılır. Yaklaşık girdiyi iyileştirmek için kamera parametreleri ve poz tahminleri ayrıca hesaplanır.

Elde edilen geometri ikinci adımda sonlandırılır. Burada nesnenin yüzey normalleri çıkarılır ve nesnenin çeşitli aydınlatma senaryolarında yeniden oluşturulması için aydınlatma parametreleri ayarlanır. Yüzey normalleri daha sonra son adımda denetim olarak kullanılır.

İşleme ağı, statik renk tahmin dalı dışında çoğu bileşende ilk aşamayla aynı yapıyı paylaşır. Bu durumda, son yüzey normallerini, temel rengini, aynasallığı ve parlaklığı oluşturmak için 4 katmanlı bir MLP yapısı tasarlanmıştır.

Önerilen yaklaşımın bazı sonuçları aşağıdaki şekilde mevcuttur.

Bu işin özetiydi NeROICVahşi doğada görüntü nesnesi edinimi için etkili bir çerçeve. Eğer ilgileniyorsanız aşağıdaki bağlantılarda daha fazla bilgi bulabilirsiniz.

Size şunları öneriyoruz: