En son araştırmada Apple ML araştırmacıları, sahneleri oluşturmak ve sürdürmek için birleşik bir omurga olan Apple Nöral Sahne Analiz Aracı'nı (ANSA) nasıl geliştirdiklerini açıklıyor… - İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Yazıyı okuyorsunuz: En son araştırmada Apple ML araştırmacıları, sahneleri oluşturmak ve sürdürmek için birleşik bir omurga olan Apple Nöral Sahne Analiz Aracı’nı (ANSA) nasıl geliştirdiklerini açıklıyor…

Bu makale Marktechpost ekibi tarafından ‘araştırma makalesi’ esas alınarak özet olarak yazılmıştır.Cihaz İçi Sahne Analizi için Çok Görevli Sinir Mimarisi‘. Bu araştırmanın tüm övgüsü bu projedeki Apple araştırmacılarına aittir.

Lütfen aramıza katılmayı unutmayın Makine Öğrenimi Alt Dizini

Apple’ın ekosistemi büyük ölçüde birçok özelliğin ve deneyimin temel bileşeni olan sahne analizine dayanır. Sahne analizinin ürettiği sonuçlar (veya “sinyaller”), görsel içerik aramaktan kişinin hayatındaki özel anları işaretleyen güçlü anılara kadar, insanların cihazlarındaki fotoğraflarla nasıl etkileşimde bulundukları açısından çok önemlidir. Çok sayıda model kaynakları paylaşabildiğinden, her bir özellik için ayrı modellerin uygulanması verimsizdir. Apple Nöral Sahne Analizcisi (ANSA), prodüksiyon sahnesi analizi iş akışlarının oluşturulması ve sürdürülmesi için tek bir omurga sağlar.

Fotoğraflar uygulamasına ek olarak diğer önemli ANSA kullanıcıları şunları içerir:.

Kamera seçenekleri, Spotlight araması ve erişilebilirlik
Notes ve Final Cut Pro, Apple’ın en popüler programlarından ikisidir
Üçüncü taraf geliştiricilerin görselleştirme API’si tabanlı uygulamaları

Yeni işletim sistemleri (iOS 16 ve Mac OS Ventura), çok sayıda işlemin tamamen cihaz üzerinde gerçekleştirilmesine olanak tanıyan ve tüm görevleri onlarca milisaniyede gerçekleştiren tek bir omurga kullanıyor. Gelişmiş bir algoritmik iş akışı, mümkün olan en iyi kullanıcı deneyimini sağlamak için tamamen istemci üzerinde çalışır. ANSA, çeşitli kullanıcı deneyimlerinin ANSA’dan yüksek kaliteli sinyaller almasını sağlarken katı güç ve performans sınırları altında çalışmalıdır.

Modelin cihaza uygulanması aşağıdaki faktörlerden etkilenmiştir:

Birden fazla etkinliği aynı anda yürütmek için omurganın paylaşılması ve bilgi işlem ve ağ parametrelerinin amortismana tabi tutulması gerekir.
Etkileşimli kullanım durumları için gecikme hedefleri onlarca milisaniyeden kısa olmalıdır.

Sinir mimarileri için çok çeşitli uygulama seçenekleri vardır. Bununla birlikte, desteklenen tüm cihazların bilgi işlem ve donanım yetenekleri biraz farklılık gösterir ancak tümü ANSA’yı çalıştırmak için kullanılmalıdır. Bu nedenle ANSA, yazılımı çalıştırmak için kullanılabilecek tüm donanım yapılandırmalarında verimli bir şekilde çalışacak şekilde geliştirildi. Bu teknoloji umut vericidir ancak Neural Engine’e sahip olmayan cihazlarda kullanılabilir hale getirmek için evrişimsel katman tabanlı tasarımlar kullanır.

Yukarıdaki şekil insanın görsel sisteminin yapısını temsil etmektedir.

Görme omurgasının desteklediği birkaç ardışık görev vardır. Omurganın birden fazla uygulama tarafından kullanılmasının bir sonucu olarak, cihazın toplam kapladığı alan küçük tutulabilir. Görüntü dili omurgasının turuncu renkle gösterilen görüntü bölümü, kontrastlı bir hedefle eğitildi. Yukarıdaki görsel omurganın dilsel alanını temsil etmemektedir. Turuncu kuledeki alt düzey görevler, görüntüye daha yakın olan özelliklere dayanırken, yüksek düzeyli görevler, son yerleştirme katmanına daha yakın olan parçalara dayanmaktadır. Bu diyagramda aynı derinliğe dallanan işler aynı tonu paylaşıyor.

Amaç, çok çeşitli kullanıcı deneyimlerini yönlendirebilecek mükemmel kalitede bir görüntü omurgası yetiştirmektir. ANSA, iOS 16 ve macOS Ventura’dan önce, çok etiketli sınıflandırma hedefiyle donmuş bir omurga üzerine kurulmuştu. Bu seçim, sonraki etkinlikler için sağlam ve her yerde bulunan bir görüntü temsili üretir.

Bu sınıflandırıcı başlangıçta bazıları hazır görsel olan az sayıda milyonlarca fotoğraf üzerinde eğitilmişti. Son araştırmalar, büyük ölçekli, kötü denetlenen veri setlerinin birçok alt görevde en iyi sonuçları elde etmek için kullanılabileceğini göstermiştir. Bu modelleri, göreve özel ek açıklamalar kullanmadan fotoğrafları doğal dil açıklamalarıyla birlikte yerleştirecek şekilde eğitmek için karşılaştırmalı bir amaç kullanılır. Ayrıca, tamamen denetlenen modellerle rekabetçi bir şekilde görüntü etiketleme için sıfır atış aktarımı gerçekleştirirken, çeşitli sonraki görevlerde öğrenmeyi aktarmak için kullanılabilecek anlamlı temsiller de elde ederler. Yüz milyonlarca görüntü-metin çifti üzerinde eğitilmiş olan en yeni omurga, entegre görüntü-dil paradigmasını benimsemiştir.

Büyük veri kümeleri için birden fazla GPU üzerinde paralel eğitim gerekliydi ve her GPU’daki yerel toplu iş boyutunu en üst düzeye çıkarmak için gradyan kontrol noktası oluşturma ve karma duyarlıklı eğitim gibi teknikler kullanıldı. Sonuç olarak, veri kümesi GPU çalışanları arasında paylaşıldı ve modelin eğitim için ihtiyaç duyduğu çözünürlüğe daha yakın bir çözünürlüğe küçültülmüş fotoğraflarla birlikte depolandı, böylece daha yüksek eğitim performansı (temel yaklaşımdan yaklaşık 10 kat daha hızlı) sağlandı.

Bu yeni önceden eğitilmiş resim dili omurgası ile öğrenmeyi bir işten diğerine aktarmak mümkündür. Sıralama daha önce omurga için birincil eğitim öncesi hedef olarak kullanılıyordu. Yine de sınıflandırma görevine yardımcı olmak için resim dili omurgasının üstüne küçük bir kafa yerleştirilmiştir. Önceden eğitilmiş başlangıç sınıflandırma omurgası yerine resim dili hedefiyle eğitilmiş bir MobileNetv3 omurgası kullanıldığında, ortalama ortalama doğrulukta %10,5’lik bir artış gözlemlendi. Gömülü önceden eğitilmiş görüntünün üzerindeki sığ doğrusal katmandan, omurgadaki birden fazla katmana bağlı daha karmaşık bir evrişimsel ağa kadar, kafalar çeşitli şekillerde kullanılabilir (nesne tespiti için kullanılanlar gibi). Nesne algılama başlığı omurgada yalnızca 1 MB depolama alanı tüketir.

ANSA tamamen yerel bilgi işlem kaynaklarına dayandığından, bulut ve diğer uzak kaynaklar bir seçenek değildi. Çıkarım hızlı olmalı, bellek ve güç açısından verimli olmalı ve mümkün olduğunca az disk alanı kaplamalıdır. Sonuçta, makine öğrenimini hızlandıran A11 Bionic, M1 ve sonraki CPU’lara en uygun MobileNetv3 sürümü seçildi. Son ANSA mimarisi 16 milyon parametreye sahiptir, tüm başlıklarını 9,7 milisaniyeden daha kısa sürede çalıştırır, Apple Neural Engine’de (ANE) yalnızca 24,6 MB bellek kullanır ve yalnızca 16,4 MB disk alanı kaplar. Bu sonuca ulaşmak için kuantizasyon ve kırpma gibi optimizasyonlar kullanıldı.

Yüzlerce Harika Yapay Zeka Aracını bulmak için https://aitoolsclub.com adresini ziyaret edin

En son araştırmada Apple ML araştırmacıları, sahneleri oluşturmak ve sürdürmek için birleşik bir omurga olan Apple Nöral Sahne Analiz Aracı’nı (ANSA) nasıl geliştirdiklerini açıklıyor…

Size şunları öneriyoruz: