İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Meta AI, Segment Her Şey Modelini (SAM) piyasaya sürüyor: bir görüntüdeki/videodaki herhangi bir nesneyi tek bir hareketle dilimleyebilen yeni bir yapay zeka modeli.

Yazıyı okuyorsunuz: Meta AI, Bir Görüntüdeki/Videodaki herhangi bir nesneyi tek bir hareketle dilimleyebilen yeni bir AI modeli olan Segment Her Şey Modelini (SAM) başlattı.

Bilgisayarla görme, bilimsel görüntü analizinden güzel sanatlar fotoğrafları oluşturmaya kadar çeşitli kullanımlar için bir görüntüdeki hangi piksellerin belirli bir nesneyi temsil ettiğini belirleme süreci olan segmentasyona büyük ölçüde dayanır. Bununla birlikte, belirli bir görev için doğru bir segmentasyon modeli oluşturmak, genellikle yapay zeka eğitim altyapısına ve büyük hacimli dikkatlice açıklamalı alan verilerine erişimi olan teknik uzmanların yardımını gerektirir.

Meta AI’nın son araştırması, görüntü segmentasyonu için yeni bir görev, veri seti ve model sağlayarak “bölümlendirmeyi demokratikleştirme” çabası olan “Her Şeyi Segmente Ayır” adlı projesini içeriyor. Her Şeyi Segmente Alma Modeli (SAM) ve Tarihteki en büyük segmentasyon veri kümesi olan 1 Milyarlık Her Şeyi Segmente Alma maskesi veri kümesi (SA-1B).

Eskiden segmentasyon problemleriyle başa çıkmak için iki ana strateji kategorisi vardı. İlki olan etkileşimli bölümleme, herhangi bir nesneyi bölümlendirebiliyordu ancak bir insan operatörün bir maskeyi yinelemeli olarak hassaslaştırmasını gerektiriyordu. Ancak otomatik segmentasyon, önceden tanımlanmış nesne kategorilerini segmentlere ayırmayı mümkün kıldı. Yine de segmentasyon modelini eğitmek için çok sayıda manuel açıklamalı nesnenin yanı sıra bilgi işlem kaynakları ve teknik uzmanlık gerekiyordu. Her iki yöntem de kusursuz, evrensel olarak otomatikleştirilmiş bir segmentasyon aracı sunmuyordu.

SAM, bu iki daha geniş yöntem kategorisini kapsar. Etkileşimli ve otomatik segmentasyon görevlerini zahmetsizce yürüten birleşik bir modeldir. Esnek talep arayüzü sayesinde model, uygun talebin tasarlanmasıyla çeşitli segmentasyon görevleri için kullanılabilir. Ek olarak SAM, bir milyarın üzerinde maskeden oluşan çeşitli, yüksek kaliteli bir veri kümesi üzerinde eğitildiğinden yeni nesne ve görüntü türlerine genelleme yapabilir. Genel olarak uygulayıcıların bu genellenebilirlik nedeniyle segmentasyon verilerini toplamaları ve kullanım durumları için bir model ayarlamaları gerekmeyecektir.

Bu özellikler SAM’in farklı alanlara aktarım yapmasına ve farklı görevleri gerçekleştirmesine olanak tanır. SAM’in bazı yetenekleri şunlardır:

  1. SAM, tek bir fare tıklamasıyla veya dahil etme ve hariç tutma noktalarını etkileşimli olarak seçerek nesneleri segmentlere ayırmayı kolaylaştırır. Model için bir ipucu olarak bir kontur kutusu da kullanılabilir.
  2. Pratik segmentasyon problemleri için, SAM’in nesne belirsizliği karşısında rekabetçi geçerli maskeler üretme yeteneği çok önemli bir özelliktir.
  3. SAM, görüntüdeki herhangi bir nesneyi anında algılayıp maskeleyebilir.
  4. Görüntü yerleştirmenin ön hesaplamasını yaptıktan sonra SAM, herhangi bir istek için anında bir segmentasyon maskesi oluşturabilir ve bu da modelle gerçek zamanlı etkileşime olanak tanır.

Ekibin modeli eğitmek için geniş ve çeşitli bir veri setine ihtiyacı vardı. Bilgi toplamak için SAM kullanıldı. Özellikle, açıklayıcılar etkileşimli görüntü açıklamaları gerçekleştirmek için SAM’i kullandılar ve elde edilen veriler daha sonra SAM’i iyileştirmek ve geliştirmek için kullanıldı. Bu döngü, modeli ve verileri iyileştirmek için birkaç kez çalıştırıldı.

SAM kullanılarak yeni segmentasyon maskeleri ışık hızında toplanabilir. Ekibin kullandığı araç, etkileşimli maske açıklamasının hızlı ve kolay olmasını sağlıyor ve yalnızca 14 saniye sürüyor. Bu model, COCO’nun tamamen manuel çokgen tabanlı maske açıklamasından 6,5 kat daha hızlıdır ve büyük ölçekli segmentasyon verilerinin önceki toplama çalışmalarına kıyasla yine model destekli olan önceki en büyük veri açıklaması çalışmasından 2 kat daha hızlıdır.

Sunulan milyarlarca maske veri seti yalnızca etkileşimli açıklamalı maskelerle oluşturulamazdı. Sonuç olarak araştırmacılar, SA-1B için veri toplarken kullanılacak bir veri motoru geliştirdiler. Bu veri “motorunda” üç “dişli” vardır. Modelin ilk çalışma modu, yorumlayıcılara yardımcı olmaktır. Bir sonraki viteste, toplanan maskelerin aralığını genişletmek için tam otomatik açıklama ekleme insan yardımı ile birleştirilir. Son olarak, tam otomatik maske oluşturma, veri kümesini ölçeklendirme yeteneğini destekler.

Nihai veri kümesinde lisanslar, gizlilik korumaları ve 1,1 milyar segmentasyon maskesiyle birlikte 11 milyondan fazla görüntü bulunuyor. İnsan değerlendirme çalışmaları, SA-1B’deki maskelerin yüksek kalite ve çeşitliliğe sahip olduğunu ve kalite açısından çok daha küçük, manuel olarak açıklama eklenmiş önceki veri setlerindeki maskelerle karşılaştırılabilir olduğunu doğruladı. SA-1B, mevcut segmentasyon veri setlerinden 400 kat daha fazla maskeye sahiptir.

Araştırmacılar, SAM’i, ön plan/arka plan noktaları, kaba bir kutu veya maske, serbest biçimli metin vb. gibi çeşitli girdilere yanıt olarak doğru bir segmentasyon maskesi sağlayacak şekilde eğitti. Eğitim öncesi görevin ve etkileşimli veri toplamanın model tasarımına belirli kısıtlamalar getirdiğini belirttiler. . Ek açıklamacıların açıklama sırasında SAM’i etkili bir şekilde kullanabilmesi için modelin bir web tarayıcısındaki CPU üzerinde gerçek zamanlı olarak çalışması gerekir.

Hafif bir kodlayıcı, herhangi bir isteği anında bir gömme vektörüne dönüştürebilirken, bir görüntü kodlayıcı, görüntü için benzersiz bir gömme oluşturur. Daha sonra bu iki kaynaktan gelen verileri bir segmentasyon maskesi tahmininde birleştirmek için hafif bir kod çözücü kullanılır. Görüntü yerleştirme hesaplandıktan sonra SAM, bir web tarayıcısındaki herhangi bir sorguya 50 ms’den daha kısa bir sürede segmentle yanıt verebilir.

SAM, belirli bir görüntüdeki herhangi bir nesnenin yerinin belirlenmesini ve bölümlendirilmesini gerektiren çok çeşitli alanlarda gelecekteki uygulamaları yönlendirme potansiyeline sahiptir. Örneğin, bir web sayfasının görsel ve metinsel içeriğini anlamak, dünyayı genel olarak çok modlu bir şekilde anlamak için SAM’in daha büyük yapay zeka sistemlerine nasıl entegre edilebileceğinin yalnızca bir örneğidir.