İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Bir GAN’ın gizli alanını ‘Blob’larla düzenleme

Şu yazıyı okuyorsunuz: Bir GAN’ın gizli alanını ‘Blob’larla düzenleme

UC Berkeley ve Adobe’nin yeni araştırması, Üretken Rekabet Ağı (GAN) tarafından oluşturulabilen, ancak genellikle Photoshop’a tanıdık bir şekilde serbestçe kontrol edilemeyen, canlandırılamayan veya değiştirilemeyen hipergerçek içeriği doğrudan düzenlemenin bir yolunu sunuyor. CGI kullanıcıları ve uygulayıcıları.

Soylu BlobGANYöntem, “bloblardan” oluşan bir ızgara oluşturmayı içeriyor: GAN’ın gizli alanındaki içerikle doğrudan eşlenen matematiksel yapılar.

Blobları hareket ettirerek, bir sahne temsilindeki ‘nesneleri’, GAN’ın gizli alanını haritalamaya ve kontrol etmeye yönelik mevcut birçok girişimden daha CGI ve CAD yöntemlerine daha yakın olan sezgisel bir şekilde taşıyabilirsiniz:

BlobGAN ile sahneleri değiştirme: kullanıcı hareket ettikçe BlobGAN ile sahneleri değiştirme: kullanıcı hareket ettikçe

BlobGAN ile Sahne Manipülasyonu: Kullanıcı “blobları” hareket ettirdikçe, gizli nesnelerin düzeni ve GAN’daki stiller buna uygun olarak değiştirilir. Daha fazla örnek için bu makalenin sonuna yerleştirilmiş olan videoya veya https://www.youtube.com/watch?v=KpUv82VsU5k adresine bakın.

Bloblar, GAN’ın gizli alanında çizilen sahnedeki “nesnelere” karşılık geldiğinden, tüm nesneler çözülür Önselbunları ayrı ayrı değiştirmek mümkün:

Nesneler yeniden boyutlandırılabilir, küçültülebilir, kopyalanabilir, silinebilir ve daha fazlası yapılabilir.Nesneler yeniden boyutlandırılabilir, küçültülebilir, kopyalanabilir, silinebilir ve daha fazlası yapılabilir.

Nesneler yeniden boyutlandırılabilir, küçültülebilir, kopyalanabilir, silinebilir ve daha fazlası yapılabilir.

Fotoğraf düzenleme (ve hatta metin düzenleme) yazılımındaki herhangi bir nesnede olduğu gibi, bir blob daha sonra çoğaltılabilir ve değiştirilebilir:

Bloblar arayüzde çoğaltılabilir ve karşılık gelen gizli temsilleri de 'kopyalanıp yapıştırılır'.  Kaynak: https://dave.ml/blobgan/#resultsBloblar arayüzde çoğaltılabilir ve karşılık gelen gizli temsilleri de 'kopyalanıp yapıştırılır'.  Kaynak: https://dave.ml/blobgan/#results

Bloblar arayüzde çoğaltılabilir ve karşılık gelen gizli temsilleri de ‘kopyalanıp yapıştırılır’. Kaynak: https://dave.ml/blobgan/#results

BlobGAN ayrıca kullanıcı tarafından seçilen yeni görselleri kendi gizli alanında analiz edebilir:

BlobGAN ile, işlemek istediğiniz görüntüleri doğrudan eğitim verilerine yerleştirmeniz ve ardından bunların gizli kodlarını aramanız gerekmez; bunun yerine seçilen görüntüleri istediğiniz zaman girebilir ve bunları değiştirebilirsiniz.  Burada değiştirilen fotoğraflar, sonradan yapılan kullanıcı girişleridir.  Kaynak: https://dave.ml/blobgan/#resultsBlobGAN ile, işlemek istediğiniz görüntüleri doğrudan eğitim verilerine yerleştirmeniz ve ardından bunların gizli kodlarını aramanız gerekmez; bunun yerine seçilen görüntüleri istediğiniz zaman girebilir ve bunları değiştirebilirsiniz.  Burada değiştirilen fotoğraflar, sonradan yapılan kullanıcı girişleridir.  Kaynak: https://dave.ml/blobgan/#results

BlobGAN ile, işlemek istediğiniz görüntüleri doğrudan eğitim verilerine yerleştirmeniz ve ardından bunların gizli kodlarını aramanız gerekmez; bunun yerine seçilen görüntüleri istediğiniz zaman girebilir ve bunları değiştirebilirsiniz. Burada değiştirilen fotoğraflar, sonradan yapılan kullanıcı girişleridir. Kaynak: https://dave.ml/blobgan/#results

Daha fazla sonuç görebilirsiniz Buradave ekte Youtube videosu (bu makalenin sonuna eklenmiştir). Ayrıca interaktif bir Colab da bulunmaktadır. tezahür* ve bir GitHub depo**.

Bu tür enstrümantasyon ve kapsam, Photoshop sonrası dönemde saf görünebilir ve Cinema4D ve Blender gibi parametrik yazılım paketleri, onlarca yıldır kullanıcıların 3D dünyalar yaratmasına ve özelleştirmesine olanak tanıdı; ancak bu, gizli kodlarla eşlenen vekil varlıkların kullanımı yoluyla, Üretken Rekabet Ağı’ndaki gizli alanın tuhaflıklarını ve gizli doğasını ehlileştirmeye yönelik umut verici bir yaklaşımı temsil ediyor.

Yazarlar şunları belirtiyor:

“İç mekan sahnelerinden oluşan zorlu, çok kategorili bir veri setinde BlobGAN, FID tarafından ölçülen görüntü kalitesinde Style-GAN2’den daha iyi performans gösteriyor.”

O kağıt onun başlığı BlobGAN: Mekansal Olarak Çözülmüş Sahne Temsilleriİki UC Berkeley araştırmacısı ve Adobe Research’ten üç araştırmacı tarafından yazılmıştır.

Aracı

BlobGAN, GAN görüntü sentezine yeni bir paradigma getiriyor. Yeni makale notlarında, gizli uzaydaki ayrık varlıkları ele almaya yönelik önceki yaklaşımlar, “yukarıdan aşağıya” veya “aşağıdan yukarıya” şeklindeydi.

GAN veya görüntü sınıflandırıcıdaki yukarıdan aşağıya yöntem, sahne görüntülerini “yatak odası”, “kilise”, “yüz” vb. gibi sınıflar olarak ele alır. Bu tür metin/görüntü eşleştirmesi, yeni nesil çok modlu görüntü sentezi çerçevelerini harekete geçirir. OpenAI’nin son DALL-E 2’si gibi.

Bunun yerine, aşağıdan yukarıya yaklaşımlar bir görüntüdeki her pikseli bir sınıfa, etikete veya kategoriye eşler. Anlamsal bölümlendirme günümüzde popüler bir araştırma alanı olmasına rağmen, bu tür yaklaşımlar çeşitli teknikler kullanır.

Yazarların yorumu:

‘Her iki yol da tatmin edici görünmüyor çünkü ikisi de sahnenin bazı kısımları hakkında varlıklar olarak akıl yürütmenin kolay yollarını sağlayamıyor. Sahne parçaları ya tek bir serpiştirilmiş gizli vektöre (yukarıdan aşağıya) entegre edilir ya da ayrı piksel etiketlerinden (aşağıdan yukarıya) gruplandırılmalıdır.

Bunun yerine BlobGAN şunları sunuyor: denetimsiz orta seviye oluşturmaveya üretken modeller için proxy çerçevesi.

Tasarım ağı, yerel (ve kontrol edilebilir) 'blob' varlıklarını gizli kodlarla eşleştirir.  Ortadaki renkli daireler bir 'nokta haritası' oluşturur.  Kaynak: https://arxiv.org/pdf/2205.02837.pdfTasarım ağı, yerel (ve kontrol edilebilir) 'blob' varlıklarını gizli kodlarla eşleştirir.  Ortadaki renkli daireler bir 'nokta haritası' oluşturur.  Kaynak: https://arxiv.org/pdf/2205.02837.pdf

Tasarım ağı, yerel (ve kontrol edilebilir) ‘blob’ varlıklarını gizli kodlarla eşleştirir. Ortadaki renkli daireler bir ‘nokta haritası’ oluşturur. Kaynak: https://arxiv.org/pdf/2205.02837.pdf

Gaussian (yani gürültü tabanlı) bloblar derinlik sırasına sahiptir ve her varlığa bir eşleme atayan mimaride bir darboğaz temsil ederek GAN içerik manipülasyonu için var olan en büyük engeli çözer: çözme (aynı zamanda otomatik kodlayıcı tabanlı mimariler için de bir sorun). ). Ortaya çıkan ‘blob haritası’, BlobGAN kod çözücüyü yönetmek için kullanılır.

Yazarlar, sistemin açık etiketler kullanmayan, kullanıma hazır bir ayırıcı aracılığıyla sahneleri düzenlere ve varlıklara ayırmayı öğrendiğini şaşkınlıkla belirtiyorlar.

Mimarlık ve Veri

Blob haritasındaki varlıklar, revize edilmiş StyleGAN2 türevi aracılığıyla görüntülere dönüştürülür KafesÖnceki NVIDIA araştırmalarından yararlanan bir yaklaşımla.

NVIDIA Research'ün revize edilmiş StyleGAN 2'sinin bir türevi.  Bu çalışmanın ilkelerinden bazıları BlobGAN için benimsendi veya uyarlandı.  Kaynak: https://arxiv.org/pdf/1912.04958.pdfNVIDIA Research'ün revize edilmiş StyleGAN 2'sinin bir türevi.  Bu çalışmanın ilkelerinden bazıları BlobGAN için benimsendi veya uyarlandı.  Kaynak: https://arxiv.org/pdf/1912.04958.pdf

NVIDIA Research’ün revize edilmiş StyleGAN 2’sinin bir türevi. Bu çalışmanın ilkelerinden bazıları BlobGAN için benimsendi veya uyarlandı. Kaynak: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2, genellikle olduğu gibi tek bir global vektör yerine blob haritasından girişi kabul edecek şekilde BlobGAN’da değiştirildi.

Bir yatak odası sahnesinin 'otomatik olarak tamamlanması' ve oda öğelerinin yeniden boyutlandırılması ve yerinin değiştirilmesi de dahil olmak üzere, BlobGAN tarafından mümkün kılınan bir dizi manipülasyon.  Aşağıdaki satırda buna olanak sağlayan, kullanıcının erişebildiği aracı görüyoruz: blob haritası.Bir yatak odası sahnesinin 'otomatik olarak tamamlanması' ve oda öğelerinin yeniden boyutlandırılması ve yerinin değiştirilmesi de dahil olmak üzere, BlobGAN tarafından mümkün kılınan bir dizi manipülasyon.  Aşağıdaki satırda buna olanak sağlayan, kullanıcının erişebildiği aracı görüyoruz: blob haritası.

Boş bir odanın sahnesinin “otomatik olarak tamamlanması” ve odadaki öğelerin yeniden boyutlandırılması ve yeniden konumlandırılması da dahil olmak üzere, BlobGAN tarafından mümkün kılınan bir dizi manipülasyon. Aşağıdaki satırda buna olanak sağlayan, kullanıcının erişebildiği aracı görüyoruz: blob haritası.

Benzetme yapmak gerekirse, BlobGAN, tek seferde geniş, karmaşık bir bina (gizli alan) oluşturmak ve ardından onun sonsuz yollarını keşfetmek yerine, bileşen bloklarını başlangıçta gönderir ve nerede olduklarını her zaman bilir. İçerik ve konumun bu şekilde ayrıştırılması çalışmanın ana yeniliğidir.

*Bu yazının yazıldığı sırada işlevsel değildi** Yazıldığı sırada kod henüz yayınlanmamıştı

İlk olarak 8 Mayıs 2022’de yayınlandı.