Tel Aviv Üniversitesi Araştırmacıları, Hafif Kaynaklar Konusunda Eğitim Almış Yeni Nesil İnsan Hareketi Yayılım Modelini Geliştiriyor

Yazıyı okuyorsunuz: Tel Aviv Üniversitesi araştırmacıları hafif kaynaklar üzerine eğitilmiş yeni nesil insan hareketi yayılma modelini geliştiriyor

Oyunlardan robotlara kadar çeşitli uygulamalarla insan hareketi üretmek bilgisayar animasyonunda kritik bir iştir. Akla gelebilecek hareketlerin geniş yelpazesi ve yüksek kaliteli veri toplamanın zorluğu ve maliyeti de dahil olmak üzere çeşitli nedenlerden dolayı üzerinde çalışılması karmaşık bir konudur. Bir diğer kritik konu ise hareketin doğal dilden oluşturulduğu yeni metinden harekete ortamında veri etiketlemedir. Örneğin, “tekme” terimi hem futbol vuruşu hem de karate vuruşu için geçerli olabilir. Aynı zamanda, belirli bir tekme verildiğinde, nasıl uygulandığından, uyandırdığı duygulara kadar, pek çok zorlukla sonuçlanan, onu tanımlamanın çeşitli yolları vardır. Mevcut teknikler bu alanda başarılı olmuştur ve ilgi çekici metin-hareket eşlemesini göstermektedir.

Bununla birlikte, tüm bu teknikler öğrenilen dağıtımı kısıtlamaya devam etmektedir çünkü bunlar öncelikle otomatik kodlayıcılar veya VAE’ler kullanmaktadır (sırasıyla bire bir eşleme veya normal bir gizli dağılım anlamına gelir). Bu anlamda, difüzyon modelleri insan hareketi üretimi için üstün bir seçimdir çünkü hedef dağıtım varsayımlarından yoksundurlar ve tartıştıkları çoktan çoğa dağıtım eşleştirme zorluğunu iyi ifade ettikleri bilinmektedir. Difüzyon modelleri, bilgisayarla görme ve grafik topluluklarında popülerlik kazanan üretken bir yöntemdir. Son yayılma modelleri, şartlandırılmış bir nesil için eğitildiğinde görüntü kalitesinde ve anlambilimde gelişmeler olduğunu göstermiştir. Bu modellerin yeterliliği, filmler ve 3 boyutlu nokta bulutları gibi diğer alanlarda da kanıtlanmıştır.

Bu tür modellerin zorluğu, bunların kaynak yoğun olması ve yönetilmesinin zor olmasıdır. Bu çalışmada, insan hareket alanı için tamamen değiştirilmiş difüzyon tabanlı üretken bir model olan hareket difüzyon modelini (MDM) sunuyorlar. MDM, difüzyon temelli olduğundan, ortaya çıkan hareketin kalitesi ve çeşitliliğinde de görüldüğü gibi, alanın içsel çoktan çoğa ifadesinden yararlanır (Şekil 1). Ek olarak MDM, hareket oluşturma alanında önceden bilinen bilgilerden yararlanarak önemli ölçüde daha hafif ve daha kontrollü olmasını sağlar. Yeni başlayanlar için, ortak U-net omurgası yerine MDM, transformatör tabanlıdır.

Mimarisi hafiftir ve hareket verilerinin (bir dizi eklem olarak temsil edilir) mekansal yapısından ziyade zamansal yapısına daha uygundur. Geometrik kayıplarla öğrenme, hareket oluşturma araştırmalarında büyük ilgi görmektedir. Örneğin bazıları, dengesizliği önlemek için hareket hızını sınırlandırır veya esas olarak belirlenmiş sözcükleri kullanarak ayağın kaymasını dikkate alır. Bu bulgular doğrultusunda, difüzyonda geometrik kayıpların kullanılmasının üretimi iyileştirdiğini ortaya koymaktadırlar. MDM çerçevesi birçok koşullandırma türüne izin veren genel bir mimariye sahiptir.

HumanAct12 ve UETC gibi popüler ölçütlerde MDM, öncelikli olarak bu iş için tasarlanmış olmasına rağmen, aksiyondan harekete geçişte en son teknolojiyi geride bırakıyor. Üç farklı görevi gösterirler: metinden harekete, eylemden harekete ve koşulsuz yaratım. Modeli bir sınıflandırıcı olmadan eğiterek aslına uygunluk için çeşitliliği değiştirmelerine ve aynı modeli koşullu ve koşulsuz olarak örneklemelerine olanak tanır. Modelleri, HumanML3D’den ve metinden harekete testindeki kıyaslamalardan daha iyi performans gösteren tutarlı hareketler (Şekil 1) yaratıyor. Ek olarak, kullanıcı anketlerine göre, insan değerlendiriciler %42 oranında kendi yarattıkları etkinlikleri doğal hareketlere tercih ediyor.

Son olarak tamamlama ve düzenlemeyi gösterirler. Yayılım görüntülerini boyayarak hareketin önek ve sonekini oluştururlar ve modellerini boşlukları doldurmak için kullanırlar. Metinsel bir koşul altında gerçekleştirildiğinde, MDM, boşluğu orijinal girdinin anlamını koruyan belirli bir hareketle dolduracak şekilde yönlendirilir. Aynı zamanda geçici olarak değil ortak alanda bir resim yaparak, diğerlerini değiştirmeden seçilen vücut parçalarının anlamsal bir modifikasyonunu sergiliyorlar.

Genel olarak hareket yayılım modelini sunarlar. Bu hareket çerçevesi, birden fazla hareket prodüksiyonu uygulamasında üstün kalite sunar ve tek bir orta sınıf GPU’da yalnızca üç günlük eğitim gerektirir. Difüzyon bağlamında önemsiz olmayan ancak hareket alanında kritik olan geometrik kayıplara izin verir. En ileri yaratıcı yetenekleri düşünceli alan uzmanlığıyla birleştirir. Belgenin ayrıntılı bir demosu GitHub sitesinde bulunabilir ve belgenin PyTorch uygulaması da mevcuttur.

Bu makale Marktechpost personeli tarafından ön araştırma makalesine dayanarak araştırma özeti makalesi olarak yazılmıştır.İNSAN HAREKETİNİN DİFÜZYON MODELİ‘. Bu araştırmanın tüm kredisi bu projenin araştırmacılarına aittir. Görüntüle kağıt, github bağlantısı Ve proje.

Lütfen katılmayı unutmayın ML alt dizimiz

Yüzlerce Harika Yapay Zeka Aracını bulmak için https://aitoolsclub.com adresini ziyaret edin

Size şunları öneriyoruz: