İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Yeni bir eğitim tekniği ile cihazda yaşam boyu öğrenmeye daha yakın

Yazıyı okuyorsunuz: Yeni eğitim tekniği ile cihazda yaşam boyu öğrenmeye daha yakın

MIT ve MIT-IBM Watson Yapay Zeka Laboratuvarı’ndan bir araştırmacı ekibi, çeyrek megabayttan daha az bellek kullanarak cihaz üzerinde eğitime olanak tanıyan yeni bir teknik geliştirdi. Diğer eğitim çözümleri genellikle çoğu mikro denetleyicinin 256 kilobayt kapasitesini aşan 500 megabayttan fazla bellek gerektirdiğinden, bu yeni gelişme etkileyici bir başarıdır.

Bir makine öğrenimi modelini akıllı uç cihazda eğiterek yeni verilere uyum sağlayabilir ve daha iyi tahminler yapabilir. Bununla birlikte, eğitim süreci genellikle hafıza açısından yoğun olduğundan, genellikle modeli bir cihaza dağıtmadan önce bir veri merkezindeki bilgisayarlarla gerçekleştirilir. Bu süreç, ekibin geliştirdiği yeni tekniğe kıyasla çok daha pahalı ve gizlilik endişelerini artırıyor.

Araştırmacılar algoritmaları ve çerçeveyi, bir modeli eğitmek için gereken hesaplama miktarını azaltacak, süreci daha hızlı ve hafızayı daha verimli hale getirecek şekilde geliştirdiler. Bu teknik, bir mikrodenetleyici üzerinde bir makine öğrenimi modelinin yalnızca birkaç dakika içinde eğitilmesine yardımcı olabilir.

Yeni teknik aynı zamanda hassas verilerle uğraşırken önemli olan verileri cihazda tutarak gizliliğe de yardımcı oluyor. Aynı zamanda çerçeve, diğer yaklaşımlara kıyasla model doğruluğunu artırır.

Song Han, Elektrik Mühendisliği ve Bilgisayar Bilimleri (EECS) Bölümünde doçent, MIT-IBM Watson Yapay Zeka Laboratuvarı üyesi ve araştırma makalesinin baş yazarıdır.

Han, “Çalışmamız, IoT cihazlarının yalnızca çıkarım yapmasına değil, aynı zamanda AI modellerini yeni toplanan verilere göre sürekli olarak güncellemesine olanak tanıyarak cihazda yaşam boyu öğrenmenin önünü açıyor” dedi. “Düşük kaynak kullanımı, “derin öğrenmeyi daha erişilebilir ve daha erişilebilir hale getiriyor” özellikle düşük güçlü uç cihazlar için daha geniş bir erişime sahip olabilir.”

O kağıt Bunlar arasında eş-kıdemli yazarlar ve EECS doktora öğrencileri Ji Lin ve Ligeng Zhu ile MIT doktora sonrası araştırmacıları Wei-Ming Chen ve Wei-Chen Wang ve ayrıca MIT-IBM Watson Yapay Zeka Laboratuvarı’nda kıdemli araştırma personeli olan Chuang Gan da vardı.

Eğitim sürecini daha verimli hale getirin

Ekip, eğitim sürecini daha verimli hale getirmek ve daha az bellek gerektirmek için iki algoritmik çözüme güvendi. İlki, her eğitim turu sırasında güncellenecek en önemli ağırlıkları tanımlayan bir algoritma kullanan seyrek güncelleme olarak bilinir. Algoritma, doğruluk belirli bir eşiğe düşene kadar ağırlıkları birer birer dondurur ve bu noktada durur. Daha sonra kalan ağırlıklar güncellenir ve dondurulmuş ağırlıklara karşılık gelen aktivasyonların hafızada saklanmasına gerek kalmaz.

Han, “Modelin tamamını güncellemek çok pahalı çünkü çok fazla aktivasyon var, bu nedenle insanlar yalnızca son katmanı güncelleme eğiliminde, ancak tahmin edebileceğiniz gibi bu, doğruluğu olumsuz etkiliyor” dedi. “Bizim yöntemimiz için, bunları seçici olarak güncelliyoruz önemli ağırlıklar ve doğruluğun tamamen korunmasını sağlıyoruz.”

Ekip tarafından geliştirilen ikinci çözüm, sayısal eğitim ve ağırlıkların basitleştirilmesini içeriyor. Bir algoritma ilk olarak, eğitim ve çıkarım için bellek miktarını da azaltan bir niceleme süreci yoluyla ağırlıkları yalnızca sekiz bit’e yuvarlar; çıkarım, bir modeli bir veri kümesine uygulama ve bir tahmin üretme sürecidir. Algoritma daha sonra, ağırlık ve gradyan arasındaki ilişkiyi ayarlamak için çarpan görevi gören, niceleme duyarlı ölçeklendirme (QAS) adı verilen bir tekniğe dayanır. Bu, nicelenmiş eğitimden kaynaklanabilecek doğrulukta herhangi bir düşüşün önlenmesine yardımcı olur.

Araştırmacılar, algoritmanın yeniliklerini işletim sistemi olmayan basit bir mikrodenetleyici üzerinde çalıştıran, küçük eğitim motoru adı verilen bir sistem geliştirdiler. Oluşturma aşamasında daha fazla çalışmayı tamamlamak için modeli uç cihaza dağıtmadan önce sistem, eğitim sürecindeki adımların sırasını değiştirir.

“Zamanı derlemek için otomatik farklılaştırma ve grafik optimizasyonu gibi birçok hesaplamayı kullanıyoruz. Ayrıca seyrek güncellemeleri desteklemek için gereksiz operatörleri agresif bir şekilde kaldırdık. Çalışma zamanında cihaz üzerinde yapacak çok daha az işimiz var” diyor Han.

Yüksek verimli teknik

Hafif eğitim için tasarlanan geleneksel teknikler genellikle 300 ila 600 megabayt arasında bellek gerektirirken, ekibin optimizasyonu, bir makine öğrenimi modelini bir mikro denetleyici üzerinde eğitmek için yalnızca 157 kilobayta ihtiyaç duyuyordu.

Çerçeve, görüntülerdeki insanları tespit etmek için bir bilgisayarlı görme modeli eğitilerek test edildi ve bu görevi yalnızca 10 dakikada tamamlamayı öğrendi. Yöntem aynı zamanda bir modeli diğer yöntemlere göre 20 kat daha hızlı eğitebildi.

Araştırmacılar artık teknikleri dil modellerine ve farklı veri türlerine uygulamaya çalışacaklar. Ayrıca kazanılan bu bilgiyi, doğruluk kaybı olmadan daha büyük modellerin ölçeğini küçültmek için kullanmak istiyorlar; bu da büyük ölçekli makine öğrenimi modellerinin eğitiminin karbon ayak izini azaltmaya yardımcı olabilir.