Maryland Üniversitesi'nin yeni yapay zeka (AI) araştırması, şekil tanıma özelliğine sahip katmanlı, metin tabanlı bir video düzenleme aracı öneriyor - İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Yazıyı okuyorsunuz: Maryland Üniversitesi’nin yeni yapay zeka (AI) araştırması, şekil tanıma özelliğine sahip katmanlı, metin tabanlı bir video düzenleme aracı öneriyor

İstenilen hedeflere ulaşmak için video klipleri değiştirme ve yeniden düzenleme süreci olan video düzenleme, yapay zekanın (AI) bilişime entegrasyonuyla devrim yarattı. Yapay zeka destekli video düzenleme araçları, post prodüksiyon süreçlerinin daha hızlı ve daha verimli olmasını sağlar. Derin öğrenme algoritmalarının gelişmesiyle birlikte yapay zeka artık renk düzeltme, nesne izleme ve hatta içerik oluşturma gibi görevleri otomatik olarak gerçekleştirebiliyor. Yapay zeka, video verilerindeki kalıpları analiz ederek nihai ürünün genel görünümünü iyileştirecek düzenleme ve geçişler önerebilir. Ayrıca yapay zeka tabanlı araçlar, büyük video kitaplıklarının düzenlenmesine ve sınıflandırılmasına yardımcı olarak editörlerin ihtiyaç duydukları materyali bulmasını kolaylaştırabilir. Video düzenlemede yapay zekanın kullanılması, yüksek kaliteli video içeriği üretmek için gereken süreyi ve çabayı önemli ölçüde azaltma potansiyeline sahipken yeni yaratıcı olanaklar da sağlama potansiyeline sahiptir.

Metin kılavuzlu görüntü sentezinde ve manipülasyonunda GAN’ların kullanımı son yıllarda önemli ilerlemeler kaydetti. DALL-E gibi metinden görüntüye oluşturma modelleri ve önceden eğitilmiş CLIP yerleştirmeyi kullanan son yöntemlerin başarılı olduğu kanıtlanmıştır. Stabil Difüzyon gibi yayılma modelleri, metin kılavuzlu görüntü oluşturma ve düzenlemede de başarı elde ederek çeşitli yaratıcı uygulamalara yol açtı. Ancak video düzenleme için mekansal sadakatten daha fazlası gereklidir ve bu da zamansal tutarlılıktır.

Bu makalede sunulan çalışma, son teknoloji ürünü Kararlı Difüzyon metinden görüntüye modelinin semantik görüntü düzenleme yeteneklerini tutarlı video düzenlemeye kadar genişletmektedir.

Önerilen mimarinin boru hattı aşağıda gösterilmiştir.

Bir giriş videosu ve bir metin istemi verildiğinde, önerilen şekle duyarlı video düzenleme yöntemi, giriş videosundaki hareketi korurken görünüm ve şekil değişiklikleriyle tutarlı bir video üretir. Zamansal tutarlılık elde etmek için bu yaklaşım, giriş videosunu kare başına UV eşlemeyle birlikte birleşik arka plan (BG) ve ön plan (FG) atlaslarına ayrıştırmak için önceden eğitilmiş bir NLA (doğrusal olmayan atlas) kullanır. Video ayrıştırıldıktan sonra videonun tek bir ana karesi, metinden görüntüye yayılma modeli (kararlı yayılma) kullanılarak manipüle edilir. Model, girdi ile düzenlenen anahtar kareler arasındaki yoğun semantik yazışmayı tahmin etmek için bu düzenlenmiş anahtar kareden yararlanarak şekil deformasyonunun gerçekleştirilmesine olanak sağladı. Bu adım, zamansal tutarlılığı korumak için hedef görüntüye uygulanan şekil çarpıtma vektörünü ürettiği için çok hassastır. Düzenlemeleri her kareyle ilişkilendirmek için UV eşleme ve atlas kullanıldığından, bu şekil deformasyonu kare başına deformasyonun temelini oluşturur. Ayrıca, çıkış videosunun gizli pikseller olmadan mükemmel olmasını sağlamak için önceden eğitilmiş bir yayılma modelinden yararlanılır.

Yazarlara göre önerilen yaklaşım, istenen görünümü ve düzenlemeyi tutarlı bir şekilde sunan güvenilir bir video düzenleme aracıyla sonuçlanıyor. Aşağıdaki şekil, önerilen çerçeve ile en son teknolojiye sahip yaklaşımlar arasında bir karşılaştırma sunmaktadır.

Bu, doğru ve tutarlı metin tabanlı video düzenlemeye yönelik yeni bir yapay zeka aracının özetiydi.

Bu çerçeveyle ilgileniyorsanız veya daha fazla bilgi edinmek istiyorsanız belgeye ve proje sayfasına bir bağlantı bulabilirsiniz.

Maryland Üniversitesi’nin yeni yapay zeka (AI) araştırması, şekil tanıma özelliğine sahip katmanlı, metin tabanlı bir video düzenleme aracı öneriyor

Size şunları öneriyoruz: