İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Bu AI belgesi, bir sahneyi koşullu bir şekilde boyayarak düzenleyebileceğiniz Örnekle Boyama adı verilen yeni bir görüntü düzenleme senaryosu sunar.

Gönderiyi okuyorsunuz: Bu AI belgesi, bir sahneyi koşullu bir şekilde boyayarak düzenleyebileceğiniz Örnekle Boyama adı verilen yeni bir görüntü düzenleme senaryosu sunuyor…

Son zamanlarda, uzman olmayanların olağanüstü sanatsal görüntüler oluşturmasına olanak tanıyan, derin öğrenme tekniklerine dayanan dil destekli görüntü düzenlemenin muazzam etkisini görüyoruz. Bu senaryoda zorlu bir görev, bir görüntünün genel gerçekçiliğini korurken bir görüntü içindeki içeriğin anlambilimini değiştirmeyi amaçlayan anlamsal görüntü düzenlemedir. Metinsel açıklamalar belirsiz olduğundan ve kullanıcının istediği efektleri doğru şekilde yansıtmayabileceğinden, ünlü dildeki görüntü modellerinin uygulanması bu görev için önemsiz olmayabilir.

Bu çalışmada, Çin Bilim ve Teknoloji Üniversitesi ve Microsoft Research Asia’dan araştırmacılar, kullanıcı tarafından sağlanan örnek bir görüntüye dayalı olarak görüntü içeriğinin anlamsal manipülasyonuna olanak tanıyan daha sezgisel bir görüntü düzenleme yaklaşımı önermektedir. Özellikle önerilen yöntem, birleştirilmiş görüntünün fotogerçekçi görünmesini sağlamak için kullanıcı tarafından sağlanan bir referans görüntüyü bir kaynak görüntüyle birleştirir.

Şekil 1’de önerilen yöntem sayesinde elde edilen bazı örnekler gösterilmektedir.

Amaçlarına ulaşmak için yazarlar örnek görüntüye dayalı bir yayılma modeli eğittiler. Şekil 4, önerilen yöntemin genel eğitim hattını göstermektedir.

Kaynak görüntüyü, bir örneği ve karşılık gelen birleşik temel gerçeği içeren yeterli sayıda eğitim üçlüsü toplamak imkansız olduğundan, bu yöntemde, giriş görüntülerinde bulunan nesneler rastgele kırpılır ve referans görüntüler olarak kabul edilir. Eğitim sırasında amaç, orijinal görüntüyü yeniden oluşturmak için kırpılmış nesne olmadan orijinal görüntüyü ve referans kırpılmış nesneyi kullanmaktır. Ancak model, referans nesnesini kopyalayıp orijinal maskeli görüntüye yapıştırmayı öğrendiği için bu yaklaşımın geliştirilmesi gerekmektedir.

Birincisi, tren testleri arasında ele alınacak bir uyumsuzluk sorunu var. Aslında eğitim sırasında referans nesnesi doğrudan kaynak görüntüden türetilir. Ancak bu yaklaşım verileri test etmek için iyi bir şekilde genelleştirilemez. Bu nedenle yazarlar, referans nesnenin kaynak görüntüyle bağlantısını koparmak için farklı veri büyütme tekniklerini (örn. döndürme, bulanıklaştırma) benimserler. Bu nedenle, bir metin mesajı yerine referans nesnesine koşullandırılmış yeni bir görüntü oluşturmak için önceden eğitilmiş metinden görüntüye CLIP modelini kullanmak mümkündür.

Ek olarak, ağı, maskelenmiş kaynak görüntüye kopyalamak yerine, referans nesnesinin içeriğini derinlemesine anlamaya zorlamak için bir bilgi darboğazı ortaya çıkar. Bu nedenle referans nesnesi 224 x 224 x 3 boyutunda bir görüntüden 1024 öğeden oluşan tek boyutlu bir vektöre sıkıştırılır. Bu, genel anlamsal bilgileri korurken nesnelerin üst düzey ayrıntılarının göz ardı edilmesine olanak tanır. Ayrıca, referans nesnesinin doğrudan hatırlanmasını ve yeniden oluşturulmasını önlemek amacıyla önerilen yöntem, güçlü bir görüntüyü önceden başlatmak için Kararlı Yayılma’ya dayanır.

Son olarak yazarlar, görüntü düzenlemenin kontrol edilebilirliğini de göz önünde bulunduruyorlar. Özellikle son kullanıcının düzenleme bölgesinin şeklini kontrol etmesine olanak tanır. Bu, önerilen yöntemin eğitim sırasında referans nesnesinin sınırlayıcı kutusuna dayalı olarak isteğe bağlı şekillerdeki maskeleri dikkate alması nedeniyle mümkündür. Model, eğitim sırasında düzensiz maskeleri dahil ederek farklı şekillerdeki maskelerle fotogerçekçi görüntüler üretebilir. Ek olarak son kullanıcı, düzenleme bölgesi ile referans nesnesi arasındaki benzerlik derecesi üzerinde de kontrole sahiptir. Özellikle, önerilen yöntem, oluşturulan görüntü ile referans nesne arasındaki benzerliğin kontrol edilmesine olanak sağlamak için sınıflandırıcısız yönlendirme stratejisini kullanır.