Şu yazıyı okuyorsunuz: Bir GAN’ın gizli alanını ‘Blob’larla düzenleme
UC Berkeley ve Adobe’nin yeni araştırması, Üretken Rekabet Ağı (GAN) tarafından oluşturulabilen, ancak genellikle Photoshop’a tanıdık bir şekilde serbestçe kontrol edilemeyen, canlandırılamayan veya değiştirilemeyen hipergerçek içeriği doğrudan düzenlemenin bir yolunu sunuyor. CGI kullanıcıları ve uygulayıcıları.
Soylu BlobGANYöntem, “bloblardan” oluşan bir ızgara oluşturmayı içeriyor: GAN’ın gizli alanındaki içerikle doğrudan eşlenen matematiksel yapılar.
Blobları hareket ettirerek, bir sahne temsilindeki ‘nesneleri’, GAN’ın gizli alanını haritalamaya ve kontrol etmeye yönelik mevcut birçok girişimden daha CGI ve CAD yöntemlerine daha yakın olan sezgisel bir şekilde taşıyabilirsiniz:
Bloblar, GAN’ın gizli alanında çizilen sahnedeki “nesnelere” karşılık geldiğinden, tüm nesneler çözülür Önselbunları ayrı ayrı değiştirmek mümkün:
Fotoğraf düzenleme (ve hatta metin düzenleme) yazılımındaki herhangi bir nesnede olduğu gibi, bir blob daha sonra çoğaltılabilir ve değiştirilebilir:
BlobGAN ayrıca kullanıcı tarafından seçilen yeni görselleri kendi gizli alanında analiz edebilir:
Daha fazla sonuç görebilirsiniz Buradave ekte Youtube videosu (bu makalenin sonuna eklenmiştir). Ayrıca interaktif bir Colab da bulunmaktadır. tezahür* ve bir GitHub depo**.
Bu tür enstrümantasyon ve kapsam, Photoshop sonrası dönemde saf görünebilir ve Cinema4D ve Blender gibi parametrik yazılım paketleri, onlarca yıldır kullanıcıların 3D dünyalar yaratmasına ve özelleştirmesine olanak tanıdı; ancak bu, gizli kodlarla eşlenen vekil varlıkların kullanımı yoluyla, Üretken Rekabet Ağı’ndaki gizli alanın tuhaflıklarını ve gizli doğasını ehlileştirmeye yönelik umut verici bir yaklaşımı temsil ediyor.
Yazarlar şunları belirtiyor:
“İç mekan sahnelerinden oluşan zorlu, çok kategorili bir veri setinde BlobGAN, FID tarafından ölçülen görüntü kalitesinde Style-GAN2’den daha iyi performans gösteriyor.”
O kağıt onun başlığı BlobGAN: Mekansal Olarak Çözülmüş Sahne Temsilleriİki UC Berkeley araştırmacısı ve Adobe Research’ten üç araştırmacı tarafından yazılmıştır.
Aracı
BlobGAN, GAN görüntü sentezine yeni bir paradigma getiriyor. Yeni makale notlarında, gizli uzaydaki ayrık varlıkları ele almaya yönelik önceki yaklaşımlar, “yukarıdan aşağıya” veya “aşağıdan yukarıya” şeklindeydi.
GAN veya görüntü sınıflandırıcıdaki yukarıdan aşağıya yöntem, sahne görüntülerini “yatak odası”, “kilise”, “yüz” vb. gibi sınıflar olarak ele alır. Bu tür metin/görüntü eşleştirmesi, yeni nesil çok modlu görüntü sentezi çerçevelerini harekete geçirir. OpenAI’nin son DALL-E 2’si gibi.
Bunun yerine, aşağıdan yukarıya yaklaşımlar bir görüntüdeki her pikseli bir sınıfa, etikete veya kategoriye eşler. Anlamsal bölümlendirme günümüzde popüler bir araştırma alanı olmasına rağmen, bu tür yaklaşımlar çeşitli teknikler kullanır.
Yazarların yorumu:
‘Her iki yol da tatmin edici görünmüyor çünkü ikisi de sahnenin bazı kısımları hakkında varlıklar olarak akıl yürütmenin kolay yollarını sağlayamıyor. Sahne parçaları ya tek bir serpiştirilmiş gizli vektöre (yukarıdan aşağıya) entegre edilir ya da ayrı piksel etiketlerinden (aşağıdan yukarıya) gruplandırılmalıdır.
Bunun yerine BlobGAN şunları sunuyor: denetimsiz orta seviye oluşturmaveya üretken modeller için proxy çerçevesi.
Gaussian (yani gürültü tabanlı) bloblar derinlik sırasına sahiptir ve her varlığa bir eşleme atayan mimaride bir darboğaz temsil ederek GAN içerik manipülasyonu için var olan en büyük engeli çözer: çözme (aynı zamanda otomatik kodlayıcı tabanlı mimariler için de bir sorun). ). Ortaya çıkan ‘blob haritası’, BlobGAN kod çözücüyü yönetmek için kullanılır.
Yazarlar, sistemin açık etiketler kullanmayan, kullanıma hazır bir ayırıcı aracılığıyla sahneleri düzenlere ve varlıklara ayırmayı öğrendiğini şaşkınlıkla belirtiyorlar.
Mimarlık ve Veri
Blob haritasındaki varlıklar, revize edilmiş StyleGAN2 türevi aracılığıyla görüntülere dönüştürülür KafesÖnceki NVIDIA araştırmalarından yararlanan bir yaklaşımla.
StyleGAN 2, genellikle olduğu gibi tek bir global vektör yerine blob haritasından girişi kabul edecek şekilde BlobGAN’da değiştirildi.
Benzetme yapmak gerekirse, BlobGAN, tek seferde geniş, karmaşık bir bina (gizli alan) oluşturmak ve ardından onun sonsuz yollarını keşfetmek yerine, bileşen bloklarını başlangıçta gönderir ve nerede olduklarını her zaman bilir. İçerik ve konumun bu şekilde ayrıştırılması çalışmanın ana yeniliğidir.
*Bu yazının yazıldığı sırada işlevsel değildi** Yazıldığı sırada kod henüz yayınlanmamıştı
İlk olarak 8 Mayıs 2022’de yayınlandı.