PV3D ile Tanışın: Portre Video Oluşturma için Yeni Bir Yapay Zeka 3D Çerçevesi

Şu yazıyı okuyorsunuz: PV3D ile Tanışın: Portre Video Oluşturma için Yeni Bir 3D Yapay Zeka Çerçevesi

Makine öğrenimi ve yapay zeka hayatlarının en güzel anlarını yaşıyor. Stable Diffusion ve ChatGPT gibi harika modellerin yakın zamanda piyasaya sürülmesiyle, üretken modeller çağı çok ilginç bir noktaya ulaştı.

Örneğin ChatGPT’ye aklımıza gelen her soruyu sorabiliyoruz ve ağ bize tatmin edici ve yorucu bir şekilde cevap veriyor.

Multimedya ile ilgili başka bir örnek, bir giriş metni açıklamasından çarpıcı görüntülerin oluşturulmasıdır. Stabil Difüzyon veya Dall-E gibi difüzyon modelleri yenidir ancak bu uygulamalar için zaten iyi bilinmektedir.

Üretken modellerin çağı, inanılmaz öğrenme yeteneklerine sahip olmalarına rağmen, optimizasyonlar ve difüzyon sürecinde gizli bir alanın kullanılması gibi püf noktaları ile bile hesaplama açısından ağır kalan difüzyon modellerinden daha geniştir.

Üretken çekişmeli ağlar (GAN’lar) gibi diğer modeller son zamanlarda etkileyici bir ilerleme kaydederek insan portresi oluşturmayı benzeri görülmemiş bir başarıya taşıdı ve birçok endüstriyel uygulamanın ortaya çıkmasını sağladı.

Portre video üretimi, video manipülasyonu ve animasyon gibi daha geniş uygulamalara sahip derin üretken modeller için bir sonraki zorluk haline geldi. Gizli koddan portre videoya doğrudan eşlemeyi öğrenmek veya portre video üretimini içerik sentezi ve hareket üretimi olmak üzere iki aşamaya ayırmak için uzun bir çalışma dizisi önerildi.

Makul sonuçlar sunmasına rağmen, bu tür yöntemler, portre yeniden yaratma, konuşan yüz animasyonu ve VR/AR gibi geniş uygulamalarda en çok arzu edilen özellik olan temeldeki 3B geometriyi dikkate almadan yalnızca 2B videolar üretir. Mevcut yöntemler genellikle çoklu kamera sistemleri, iyi kontrol edilen stüdyolar ve ağır sanat eserleri gerektiren klasik grafik teknikleriyle 3 boyutlu portre videoları oluşturur.

Bu bildiride sunulan çalışmada, 3D veya çoklu görüntü açıklamalarına ihtiyaç duymadan, yalnızca 2D monoküler videolardan öğrenerek yüksek kaliteli 3D portre videoları oluşturma çabasını hafifletmeyi amaçlıyoruz.

Son zamanlardaki üretken 3 boyutlu portre yöntemleri hızlı gelişmelere tanık oldu. Örtülü sinirsel temsillerin (INR’ler) GAN’lara entegre edilmesi, fotogerçekçi ve tutarlı çoklu görünüm sonuçları üretebilir.

Ancak bu tür yöntemler statik portre oluşturmayla sınırlıdır ve çeşitli zorluklardan dolayı portre video oluşturmaya genişletilmesi pek mümkün değildir. İlk olarak, dinamik 3 boyutlu insan portrelerinin üretken bir çerçevede nasıl etkili bir şekilde modelleneceğinin keşfedilmesi gerekiyor. İkincisi, 3D denetimi olmadan dinamik 3D geometrinin öğrenilmesi çok sınırlıdır. Üçüncüsü, kamera hareketleri ile insan hareketleri/ifadeleri arasındaki karışıklık, eğitim sürecine belirsizlikler katmaktadır.

Mimari özeti aşağıdaki şekilde sunulmaktadır.

PV3D, 3D uyumlu portre video oluşturma görevini bir hacim oluşturucu ve işleme işlevi olarak formüle eder ve görünüm kodu, hareket kodu, zaman aralıkları ve kamera pozları gibi parametreleri dikkate alır.

Jeneratör ilk önce önceden eğitilmiş bir model kullanarak bir üç düzlemli temsil oluşturur ve ardından bunu, zamansal üç düzlem adı verilen video sentezi için uzay-zamansal bir temsile genişletir.

3D video oluşturma, görünüm ve hareket dinamiklerini tek bir gizli kod içinde ortaklaşa modellemek yerine, her biri ayrı ayrı kodlanan görünüm ve hareket oluşturma bileşenlerine bölünür.

Videonun görünümü cinsiyet ve ten rengi gibi özellikleri içerirken hareket oluşumu, bir kişinin ağzını açması gibi videoda ifade edilen hareketin dinamiklerini tanımlar.

Eğitim sırasında her video için zaman adımları ve bunlara karşılık gelen kamera pozları toplanır. Üç düzlemli eksen oluşturulduktan sonra, görünüm kodu ve kamera pozu ilk olarak içerik sentezi için ara görünüm kodlarına yansıtılır. Hareket bileşenine gelince, hareket kodlarını ve zaman adımlarını ara hareket kodlarına kodlamak için bir hareket katmanı tasarlanmıştır.

Üç düzlemli görüntü oluşturma çıktısının ardından, farklı kamera pozlarına sahip kareleri sentezlemek için hacim oluşturma uygulanır.

Oluşturulan kareler daha sonra süper çözünürlüklü bir modül kullanılarak üst örneklenir ve iyileştirilir.

Oluşturulan çerçevenin içeriğinin ve hareketinin doğruluğunu ve inandırıcılığını sağlamak için, jeneratörün eğitimini izlemek üzere iki ayırıcı kullanılır.

Yalnızca monoküler 2D videolar üzerinde eğitilmiş olmasına rağmen PV3D, rastgele bakış açıları altında çeşitli hareketlere ve yüksek kaliteli 3D geometriye sahip çok çeşitli fotogerçekçi portre videoları üretebilir.

Aşağıdaki şekil bir örnek ve daha gelişmiş yaklaşımlarla karşılaştırma sağlar.

Bu, portre video oluşturma sorununu çözmeye yönelik yeni bir yapay zeka çerçevesi olan PV3D’nin özetiydi. Eğer ilgileniyorsanız aşağıdaki bağlantılarda daha fazla bilgi bulabilirsiniz.

Size şunları öneriyoruz: