İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

En son yapay zeka (AI) araştırması, yeniden kullanılabilir ortak konuşma jest modellerini ve ayrıntılı ritmik hareketleri verimli bir şekilde kaydeden ‘ANGIE’ adı verilen tamamen yeni bir yöntem getiriyor

Yazıyı okuyorsunuz: En son yapay zeka (AI) araştırması, yeniden kullanılabilir ortak konuşma jest modellerini ve ayrıntılı ritmik hareketleri verimli bir şekilde kaydeden ‘ANGIE’ adı verilen tamamen yeni bir yöntem getiriyor

İnsanlar günlük konuşma sırasında konuşulan kanalların yanı sıra düşüncelerini ifade etmek için sıklıkla ortak konuşma jestlerini kullanırlar. Bu sözlü olmayan ipuçları konuşmanın anlaşılmasını geliştirir ve iletişimcinin güvenilirliğini sağlar. Sonuç olarak, sosyal robota konuşma becerilerini öğretmek, insan-makine temasını sağlamada önemli bir ilk adımdır. Bunu başarmak için araştırmacılar, tutarlı insan jest dizilerini yapısal insan temsilleri olarak sesle sentezleyerek birlikte konuşma jesti oluşturma üzerinde çalışıyor. İnsan algısı için gerekli olan hedef konuşmacının görünümüne ilişkin bilgi böyle bir temsilde yoktur. Görüntü alanında gerçek dünya konularının yaratılmasının, ses odaklı konuşan kafa sentezinde oldukça arzu edilir olduğu gösterilmiştir.

Bunu yapmak için, ses tarafından kontrol edilen, yani konuşulan ses tarafından kontrol edilen konuşmacı görüntüleri dizilerini oluşturmak için birleşik bir çerçeve kullanan ortak ses hareketlerinin videolarının üretilmesi sorununu araştırıyorlar (Şekil 1’de gösterilmektedir). Tutarlı sonuçlar sağlamak için geleneksel yaklaşımlarda ses jest çiftleri ve bağlantı kurallarının önceden tanımlanması gerekir. Derin öğrenme ilerledikçe, insan iskeletlerinde kaydedilen akustik özelliklerin veriye dayalı haritalanmasını öğrenmek için sinir ağları kullanılıyor. Özellikle bir grup yöntem, ortak konuşma ortamında küçük ölçekli MoCap veri kümelerini kullanır ve bu da sınırlı yeteneklere ve sağlamlığa sahip belirli modellerin ortaya çıkmasına neden olur. Başka bir yaklaşım ailesi, konuşma ve jestlerin daha genel korelasyonlarını yakalamak amacıyla büyük çevrimiçi filmleri sözde temel gerçek olarak etiketlemek için kullanıma hazır poz tahmincilerini kullanarak geniş bir eğitim külliyatı oluşturur.

Ancak ortaya çıkan sonuçlar doğal değildir çünkü hatalı poz açıklamaları, eğitim aşamasında hataların birikmesine neden olur. Ayrıca, yukarıdaki çabaların çoğunda ortak sesli jest videoları oluşturma sorununun da ele alınması gerekmektedir. Yalnızca birkaç çalışma, ayrı bir işlem sonrası adım olarak görüntü alanında canlandırıldığında hedef kişinin fotoğrafları üzerinde eğitim vermek için poz oluşturma oluşturucularını kullanıyor. Vokal kayıtlarına dayalı olarak konuşmacı görüntü dizileri oluşturmak için birleşik bir çerçevenin nasıl oluşturulacağı henüz belirlenmemiştir. Ortak konuşma hareketlerinin sesten videoya eşlemesinin nasıl öğrenileceğini anlamak için çok önemli olan, son deneylerden elde edilen iki bulguyu vurguluyorlar:

1) Eklemli insan vücudu bölgesi bilgisi, 2D/3D iskeletler gibi manuel olarak oluşturulmuş insan önceki yapıları tarafından kaldırılacaktır. Görüntü animasyonundaki yerel afin dönüşüme benzer şekilde, bu tür sıfır dereceli hareket temsili, birinci dereceden hareketi formüle edemez. Ayrıca, önceki yapısal etiketlemedeki yanlışlık nedeniyle çok modlu sesten jeste öğrenmenin iyileştirilmesi gerekmektedir.

2) Ortak konuşma hareketleri ortak hareket kalıplarına ve ritmik dinamiklere bölünebilir; birincisi büyük ölçekli hareket şablonlarına karşılık gelir (örneğin, ellerin periyodik olarak kaldırılması ve indirilmesi), ikincisi ise hassas prozodik hareketleri tamamlamak için bir iyileştirme görevi görür. . ve konuşulan sesle senkronize edin (ör. parmak yanıp sönme). Yukarıdaki gözlemlerden yola çıkarak, ortak konuşma hareketi videosu üretmek için Sese Dayalı Hareket Videosu Oluşturma (ANGIE) adı verilen yeni bir çerçeve öneriyorlar.

Hareket kalıntısı, ince taneli sonuçlar için hassas ritmik ayrıntıları daha da geliştirebilir. Özellikle VQ-Motion Extractor ve Co-Speech GPT modülleri geliştirildi. Eklemli insan vücudunu ve birinci dereceden hareketleri görüntülemek için VQ-Motion Extractor’da denetimsiz bir hareket temsili kullanıyorlar. Denetimsiz hareket temsilinden, ortak yeniden kullanılabilir birlikte konuşma hareketi modellerini ölçmek için kod kitapları oluşturulur. Hareket bileşeninin kısıtlamasını hafifletmek ve jest modellerinin geçerliliğini sağlamak için Cholesky ayrıştırmasına dayanan bir niceliksel yaklaşım sağlarlar. Temel bulgu, tipik ortak konuşma jest kalıplarının hareket temsilinden niceliksel kod kitaplarına kadar özetlenebilmesidir.

Konumla ilgisi olmayan hareket modeli, bağıl hareketi temsil etmek üzere son niceleme hedefi olarak çıkarılır. Sonuç olarak, niceliksel kod kitapları, popüler hareket kalıpları hakkında otomatik olarak ayrıntılı bilgi sağlar. Üç önemli katkı sağladılar:

1) Ses odaklı ortak ses jest videoları oluşturmanın zor sorunu araştırılıyor. Ortak Konuşmalı GPT’de, nicelenmiş hareket kodu dizisini kullanarak konuşma sesinden ayrık hareket modellerini tahmin etmek için GPT benzeri bir çerçeve kullanırlar. İnce taneli sonuçlar elde etmek için küçük ritmik unsurlara ek olarak bir hareket iyileştirme ağı gereklidir. Onlar, kendi bilgilerine göre, daha önce bir insan yapısal bedeni kullanmadan birleşik bir çerçeve kullanarak görüntü alanında bir ortak konuşma hareketi geliştiren ilk kişilerdir.

2) Co-Speech GPT’nin ritmik hareketin ince ayrıntılarını iyileştirdiğini ve VQ-Motion Extractor’ın ortak jest modellerinde hareketin temsilini nicelikselleştirmek için geliştirdiklerini öne sürüyorlar. Doğal olarak kod kitaplarında yeniden kullanılabilen hareket modeli verileri mevcuttur.

3) Kapsamlı testler, önerilen çerçeve olan ANGIE’nin canlı ve gerçekçi ortak konuşma jesti video üretim sonuçları ürettiğini göstermektedir. Kod yakında yayınlanacak.