Bu yapay zeka (AI) modeli, nesne tespiti sırasında yeni nesnelerin nasıl tespit edileceğini biliyor

Yazıyı okuyorsunuz: Bu yapay zeka (AI) modeli, nesne tespiti sırasında yeni nesnelerin nasıl tespit edileceğini biliyor

Nesne tespiti son yıllarda bilgisayarlı görme alanında önemli bir görev olmuştur. Amaç, dijital görüntülerdeki insanlar, arabalar vb. nesnelerin örneklerini tespit etmektir. Tek bir soruyu cevaplamak için yüzlerce yöntem geliştirildi: Hangi nesneler nerede?

Geleneksel yöntemler, görüntüdeki kenarlar ve köşeler gibi el işi özellikleri çıkararak bu soruyu yanıtlamaya çalıştı. Bu yaklaşımların çoğunda kayan pencere yaklaşımı kullanıldı; bu, bu parçalardan herhangi birinin aradıkları nesneyi içerip içermediğini görmek için görüntünün küçük parçalarını farklı ölçeklerde kontrol etmeye devam ettikleri anlamına geliyordu. Bu çok zaman alıyordu ve nesnenin şeklindeki en ufak bir değişiklik, yıldırım çarpması vb. bile algoritmanın onu kaçırmasına neden olabilirdi.

Sonra derin öğrenme çağı geldi. Bilgi işlem donanımının artan kapasitesi ve büyük ölçekli veri kümelerinin kullanıma sunulmasıyla birlikte, uçtan uca performans gösterebilecek güvenilir ve sağlam bir nesne algılama algoritması geliştirmek için derin öğrenme alanındaki ilerlemelerden yararlanmak mümkün hale geldi.

Derin öğrenme yöntemlerinin kullanılması, son derece başarılı nesne algılama yöntemleriyle sonuçlanabilir. Ortamdaki ve görüntüdeki nesnelerdeki değişikliklere karşı dayanıklıdırlar. Çoğu, mobil cihazlarda bile gerçek zamanlı olarak çalışabilir. Kulağa harika geliyor, değil mi? Bu, nesne algılama probleminin sonsuza kadar çözüldüğünü söyleyebileceğimiz anlamına mı geliyor? Henuz iyi degil.

Karşılaştığımız sorun, tüm bu yöntemlerin üzerinde eğitildikleri veri seti ile sınırlı olmasıdır. Modelinizi görüntüdeki pandaları tespit edecek şekilde eğitirseniz, onlara neye benzediğini öğretmek için birçok panda görüntüsü kullanırsınız. Bu görüntüleri toplamak işin bir yönü ama daha büyük sorun onları etiketlemek. Binlerce görüntüyü incelemek ve her görüntüde pandaların tam yerlerini işaretlemek zaman alıcı bir iştir.

Ayrıca modelinizin tanımasını istediğiniz her nesne için bunu yapmanız gerekecektir. Göreceği tüm nesneleri tanıyan genel bir nesne algılama modeli geliştirmek istediğinizi düşünün. COCO gibi çeşitli nesneleri içeren büyük ölçekli veri kümelerini kullanabilirsiniz ancak yine de veri kümenizdeki farklı kategorilerin sayısıyla sınırlı kalacaksınız.

Ya model yapabilseydi keşfetmek yeni nesneler? Bu durumda dünyadaki her nesneyi etiketlememize gerek kalmaz. Belki de modele bir dizi bilinen nesne verilecek ve yeni bir tane gördüğünde anlayacak ve tahmin etmek bunun için etiket. Bu, yazarların RNCDL rol elde etmeye çalışın.

Bu soruna yeni sınıf keşfi ve yerelleştirme (NCDL) adı verilir. Amaç, ham, etiketlenmemiş verilerden nesneleri keşfetmek ve tespit etmektir. Mevcut yöntemler, ön bilgileri enjekte ederek bu sorunu veri odaklı bir şekilde ele almaktadır. Bu şekilde, bilinmeyen nesneler bir dereceye kadar denetim kullanılarak anlamsal sınıflara gruplandırılır. Ancak bu ortak bir çözüm değil.

Veri kümesindeki her görüntü etiketli ve etiketsiz nesne sınıflarını bir arada içerdiğinden, yeni sınıf keşfini ve yerelleştirmeyi birlikte çözmek daha zorlu bir sorundur. Bu nedenle bu nesnelerin her birinin aynı anda konumlandırılması ve kategorize edilmesi gerekmektedir.

RNCDL, karışık ve değiştirilmiş COCO ve LVIS veri kümeleri üzerinde eğitilmiştir. COCO veri setinin yarısı olduğu gibi kullanılır, ancak geri kalan yarısında, ağın uzun kuyruklu LVIS etiket setini kullanarak yeni sınıfları algılamayı ne kadar iyi öğrendiğini değerlendirmek için etiketler kaldırılır.

İki aşamalı bir dedektör uçtan uca bu sorunu çözebilir. Modelin iki amacı vardır; özellik gösterimlerini aynı anda öğrenerek etiketli nesneleri doğru şekilde algılamak ve etiketsiz nesneleri algılamak. Öncelikle veri seti üzerinde denetimli eğitim gerçekleştirilir ve ardından etiketlenmemiş veriler üzerinde öz denetimli eğitim gerçekleştirilir. Denetimli aşamada öğrenilen bilgi, sınıftan bağımsız modüller ve segmentasyon kafaları için ağırlıklar korunarak bir sonraki aşamaya aktarılır.

Sınıflandırma için birincil sınıflandırmanın yanına yeni bir sınıflandırma eklenir ve her bölge önerisini kategorize etme hedefiyle birlikte eğitilirler. Düzgün olmayan bir ön sınıflandırma, ağın çeşitli nesneleri temsil eden özellikleri edinmesine yardımcı olur ve ağın etiketli veya arka plan sınıflarına karşı önyargılı olmasını önler.

RNCDL yeni sınıfları keşfedip tespit edebilir ve önceki yaklaşımlardan daha iyi performans gösterebilir. Ayrıca COCO veri setinin ötesinde genelleştirilebilir.

Size şunları öneriyoruz: