SinFusion ile tanışın: Tek bir girişle gerçekçi görüntüler ve videolar üreten bir yapay zeka (AI) modeli

Yazıyı okuyorsunuz: Tek girişle gerçekçi görüntüler ve videolar üreten bir yapay zeka (AI) modeli olan SinFusion’ı tanıyın

Difüzyon modelleri görüntüleme görevleri için fiili çözüm haline geldi. Birçok görevde üretken rakip ağlardan (GAN’ler) daha iyi performans gösterdiler. Absürt göstergelerle gerçekçi görünümlü görüntüler oluşturmak artık mümkün.

Ancak bu gerçekçi üretim kapasitesi bedava değil. Difüzyon modellerinin eğitimi, büyük miktarda veri gerektirdiğinden oldukça pahalıdır. Ayrıca, çalışma zamanı karmaşıklıkları da konu bunları kullanmaya geldiğinde başka bir sorundur.

Farklı konsept ve senaryolarda neredeyse sınırsız sayıda farklı görsel üretebilecek bir modele sahip olmak güzel. Peki bu yeteneğe gerçekten her zaman ihtiyacımız var mı? Sadece spesifik fikrimiz için bir görsel veya video oluşturmak isteme olasılığımız yüksektir. Veya belki de şu soruyu sormak için yayılma modelini kullanmak istiyoruz:Ve eğer..” sormak favori görselimiz veya videomuz hakkında. Bunu mevcut yayılma modelleriyle başarabilir miyiz?

Evet, teorik olarak yapabiliriz, ancak bu çok pahalı olur. İlk olarak, istediğimiz giriş görüntüsünü veya videosunu kullanarak yayılma modelini ayarlamamız gerekir. Bu ayarlama işlemi uzun zaman alacaktır, ayrıca kullanmak istediğimiz görüntü hakkında çok fazla veriye ihtiyacımız olacaktır.

Öyleyse ne yapabiliriz? Özel yayılma modellerini kullanmaktan hiç kaçınmalı mıyız? Yoksa çözüm bulmak için tüm bu kaynakları israf mı etmeliyiz? Hayır hiçbirini yapmamıza gerek yok. Özel girdilerimiz için yayın modelleme yeteneklerini aşırı pahalı olmadan kullanmanın bir yolu var. Ve bu çözümün adı Füzyon Yok.

SinFusion, tek bir giriş görüntüsü veya video üzerinde difüzyon modellerini eğitmek için önerilen bir çerçevedir. Difüzyon modellerinin yüksek kaliteli görüntüleme yeteneklerini kullanır ve ayarlama maliyetini azaltmak için çeşitli püf noktalarına sahiptir. SinFusion’ı ayarladığınızda, giriş görüntüsünün/videosunun dinamiklerini ve konseptini korurken yeni görüntüler/videolar oluşturmak için onu kullanabilirsiniz.

SinFusion, tek bir görüntüden ek görüntüler oluşturma, görüntü düzenleme, eskizden görüntü oluşturma ve görsel görüntü özetleri konusunda büyük çeşitlilik gösterir. Ek olarak, video örneklemesini, video ekstrapolasyonunu (zamanda hem ileri hem de geri) ve tek bir videodan birden fazla yeni video neslini gösterir.

Peki bunu nasıl başarıyorsunuz? Literatürde yaygın olarak kullanılan olasılıksal difüzyon gürültü giderme modelinin (DDPM) mimarisi üzerine inşa edilmiştir.

Görüntü üretimi için SinFusion, mevcut bir DDPM yapısında değişiklikler sunar. SinFusion, geniş bir görüntü kümesi üzerinde eğitim vermek yerine, giriş görüntüsünü kullanarak geniş bir rastgele görüntü kırpıntıları kümesi üzerinde eğitim yapar. Ayrıca UNet omurga yapısı ağı hızlandıracak şekilde değiştirilmiştir.

Video üretimi için SinFusion, bir dizi değiştirilmiş DDPM modülünü birlikte kullanır. Yani, biri yeni kareler oluşturmak için kare tahmini için, biri tahminci tarafından oluşturulan karelerin doğru olduğundan emin olmak için kare projeksiyonu için ve son olarak da oluşturulan videoların zamansal çözünürlüğünü artırmak için kare enterpolasyonu için.

Bu SinFusion’ın kısa bir özetiydi. Daha fazla bilgi edinmek istiyorsanız aşağıdaki bağlantılarda ilgili bilgileri bulabilirsiniz.

Size şunları öneriyoruz: