Microsoft, BEiT-3 adı verilen en son iki milyar parametreli görsel dil yapay zeka modelinin lansmanını duyurdu

Yazıyı okuyorsunuz: Microsoft, BEiT-3 adı verilen en son iki milyar parametreli görsel dil yapay zeka modelinin lansmanını duyurdu

Microsoft’un Doğal Dil Hesaplama (NLC) ekibi kısa süre önce, 1,9 milyar parametreyle Görüntü Transformatörlerinin çift yönlü kodlayıcı temsili olan en son görüntü dili yapay zeka modeli BEiT-3’ü tanıttı.

BEiT-3’ün temel fikri, görüntüleri sanki farklı bir dilde yazılmış gibi ele almak (yazarlar bunu “İngilizce” olarak adlandırıyor), modelin yalnızca maskeli dil modelleme amacıyla önceden eğitilmesine olanak tanımaktır. (MLM). BEiT-3, birleşik mimarisi sayesinde çok çeşitli aşağı yönlü görevleri destekleyebilir. Değerlendirme deneylerinde model, anlamsal bölümleme, çok modlu erişim ve görsel soru yanıtlama gibi çeşitli kıyaslamalarda en son teknolojiye sahip kayıtlardan daha iyi performans gösterdi.

Dönüştürücü model, birçok sektörde umut verici sonuçları sayesinde birçok NLP projesinin referans çerçevesi haline geldi. Sonuç olarak, birçok bilim adamı Transformer’ı görme görevleri için kullanmaya başladı ve sonunda NLP ile görmeyi tek bir modelde birleştirdi. Bununla birlikte, tipik MLM hedefine ek olarak, bu çok modlu sistemler tipik olarak çok sayıda eğitim öncesi hedef içerir çünkü çeşitli girdiler için ayrı kodlayıcı modüllere sahiptirler.

Bunun aksine, BEiT-3 tarafından kullanılan Çok Yollu Transformatör tasarımı, görsel ve metinsel bilgiler için kendi kendine hizmet eden tek bir modüle izin verir. Bakım başlığından iletilen bilgiler, belirli bir modaliteye uyarlanmış bir “uzman” modüle gönderilir. MLM hedefine model ön eğitiminin benzersiz şekilde odaklanması sayesinde mümkün olan küçük toplu iş boyutlarının eğitimiyle azaltılmış GPU bellek tüketimi elde edilir.

BEiT-3, ImageNet, COCO ve Wikipedia’nın tam metin ve resim içeriği gibi halka açık çeşitli resim ve metin veri kümeleri üzerinde önceden eğitilmiştir. Bu veriler, 160 GB salt metin belgeyi, 14 milyon görseli ve 21 milyon metin-görüntü çiftini içeriyordu.

Araştırmacılar modeli, ADE20K’de anlamsal bölümleme, nesne tanımlama, örnek bölümleme, COCO ve Flickr30K’da görüntü altyazıları ve erişim ve VQAv2’de görsel soru yanıtlama gibi çeşitli görme ve görsel dil kriterleri üzerinde test etti. BEiT-3’ün çoğu görevde öncüllerinden daha iyi sonuçlar elde ettiğini gösteren Kodlu Makaleler’den tam bir bulgu setine erişilebilir.

BEIT-3’ün basit verimliliği, büyük ölçekli çok modlu çekirdek modellerin gelecekte genişletilmesi için iyiye işarettir. Ekip, çok dilli BEIT-3 ön eğitimi üzerinde çalışıyor ve gelecekte BEIT-3’e başka yöntemler (ses gibi) ekliyor. Bunun görevler, diller ve yöntemler arasında büyük ölçekli ön eğitimin yakınlaştırılmasına yardımcı olacağına inanıyorlar.

Bu makale Marktechpost personeli tarafından ‘araştırma çalışmasına dayalı olarak bir araştırma özeti makalesi olarak yazılmıştır’Yabancı dil olarak imaj: Tüm görme ve görme-dil görevleri için BEIT ön eğitimi‘. Bu araştırmanın tüm kredisi bu projenin araştırmacılarına aittir. Görüntüle kağıt, github Ve referans makalesi.

Lütfen katılmayı unutmayın ML alt dizimiz

Yüzlerce Harika Yapay Zeka Aracını bulmak için https://aitoolsclub.com adresini ziyaret edin

Size şunları öneriyoruz: