Stanford araştırmacıları, bir dizi insan etkileşiminden çok nesneli sahneler oluşturabilen bir yapay zeka (AI) modeli olan SUMMON'u geliştirdiler. - İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Şu yazıyı okuyorsunuz: Stanford araştırmacıları, bir dizi insan etkileşiminden çok nesneli sahneler oluşturabilen bir yapay zeka (AI) modeli olan SUMMON’u geliştirdiler.

Gerçekçi insan hareketi yörüngelerini yakalamak ve sentezlemek, sanal gerçeklikte, oyun karakteri animasyonlarında, CGI’da ve robot biliminde son derece yararlı olabilir. Bu alanda makine öğrenimi araştırmalarını yönlendirmeye yardımcı olacak büyük veri kümelerine ihtiyacımız var. Yine de sorun, insan hareketleri ve 3 boyutlu nesne yerleşimi ile açıklamalı yüksek kaliteli veri kümeleri oluşturmanın çok pahalı ve sınırlı olmasıdır. Bu tür veri kümelerini oluşturmak için kullanılan veri oluşturma hatları, MoCap sistemleri, yapı kameraları ve 3 boyutlu tarayıcılar gibi pahalı cihazları içerir; bu nedenle sahne çeşitliliğinde bir darboğaz oluşturan laboratuvar ortamlarıyla sınırlıdırlar.

Stanford Üniversitesi’nden bir araştırmacı ekibi, yeni problemi çözmek için bir araya geldi. Sahneleri yalnızca insan hareket yörüngelerinden sentezleyin.

teklif ettiler TOPLANTI ( Evetsahne EvetH’nin senteziMUA METREotiİÇİNDE). SUMMON, şekilde gösterildiği gibi, yalnızca insan hareket yörüngelerinden bir sahnede çok çeşitli makul nesne yerleşimleri üretebilir. Şekil 1. SUMMON tahminlerini esas olarak iki ana adımda kolaylaştırır. Her şeyden önce bir insan sahnesi temas tahmincisi (İletişimÖnceki) herhangi bir nesneyle temas halinde olan insan ağının köşelerini tahmin eder. İkincisi, bir sahne sentezleyici Şekilde gösterildiği gibi önceki adımdaki temas noktalarına uyan bir nesne bulun. şekil 2. Dahası, sahneyi birbiriyle temas halinde olmayan ve sahneye iyi uyum sağlayan çeşitli nesnelerle doldurur. SUMMON’daki ContactFormer, bir insan hareketi dizisindeki temas noktalarının tahmin edilmesinin tutarlılığını geliştirmek amacıyla zamansal bilgileri birleştirmek için bir transformatör kullanır.

İnsan vücudu pozlarını temsil etmek için SMPL-X’in değiştirilmiş bir versiyonunu kullandılar ve hesaplama amacıyla ağdaki köşe sayısını 10475’ten 655 noktaya düşürdüler. Veri seti karşılık gelen F’ye sahip köşe çiftlerinden oluşan dizilerden oluşur. Her bir köşeye karşılık gelen bir sıcak vektöre sahiptirler. F boyutta nesne sınıfı sayısı + bir “boş” Tepe noktası herhangi bir nesneyle temas halinde olmayacak şekilde sınıf. F şunu belirtir anlamsal iletişim etiketleri (F) bir vücut pozundaki tüm köşeler için.

ContactFormer, koşullu bir GNN’den (grafik sinir ağı) oluşur Kodlayıcı-kod çözücü mimarisi ve şekilde gösterildiği gibi zamansal bağımlılıkları modelleyerek tahmin tutarlılığını geliştirmek için bir transformatör katmanı Figür 3. Temas halindeki nesne tahmin edildikten sonra model, iki kaybın birleşimi kullanılarak eğitilir ve nesnenin insan ağıyla temas halinde kalması ve ona nüfuz etmemesi sağlanır. Bu amaçla SUMMON, temas halindeki nesnenin yönünü de yeniden düzenler. Temas noktalarını elde ettiğimizde, sahne sentez modeli, şekilde gösterildiği gibi çoğunlukla temas halindeki nesnenin sınıfına oy vererek uzamsal tahmin gürültüsünü daha da azaltır. Şekil 4.

Ayrıca bir transformatör modeli de eğitilmektedir. 3D-Ön Veri kümesi, sahnede mevcut olan mevcut kategorileri girdi olarak alır ve boş alanlarda sahneye iyi uyum sağlayacak gelecekteki kategorileri tahmin eder. İnsan ağına temas etmeyecek şekilde farklı nesneler yerleştirerek sahnenin tamamlanmasına yardımcı olun. Veri setleri ile ilgili olarak, PROXD veri seti SUMMON’u eğitmek için kullanılır ve GIMO veri seti test için kullanılır. Yeniden yapılanma doğruluğu Ve tutarlılık puanı metrik olarak kullanılır. Yeniden yapılandırma doğruluğu, her bir köşe için temel gerçekle karşılaştırıldığında tahmin edilen temas etiketinin ortalama doğruluğudur. Tutarlılık puanlaması sezgisel olarak yakın temas noktalarının aynı anlamsal temas etiketlerine sahip olması gerektiği anlamına gelir. Ekip ayrıca kullanıcıya insan hareketi dizilerini ve sahnelerdeki tahmin edilen nesneleri sunarak en makul ve gerçekçi konumu seçmesini istedikleri bir kullanıcı çalışması da gerçekleştirdi. %74,5 Kullanıcıların oranı diğer taban değerlerine göre SUMMON’u tercih etti. Sonuçlar şurada gösterilmiştir: Tablo 1 ve Tablo 2. Şekil 6 tüm taban çizgilerinin tahmininin bazı görselleştirmelerini gösterir.

Sonuç olarak, SUMMON’un gerçek hayat senaryolarında çok büyük uygulamaları vardır. Animasyonlar ve CGI vb. için yalnızca insan hareket dizilerinden çeşitli insan-sahne etkileşimi veri kümeleri oluşturmak için kullanılabilir. Ekip ayrıca bu yöndeki araştırmaların geleceğini de tartıştı. Şimdilik SUMMON yalnızca sert vücut temaslarıyla ilgileniyor. Ayrıca yumuşak cisimlere kadar uzanabilir. Başka bir araştırma yönü, sahne nesnesinin insan hareketi sırasında hareket ettiği dinamik sahneler vb. olabilir.

Stanford araştırmacıları, bir dizi insan etkileşiminden çok nesneli sahneler oluşturabilen bir yapay zeka (AI) modeli olan SUMMON’u geliştirdiler.

Size şunları öneriyoruz: