Intel Labs, iki yeni yapay zeka modeliyle bilgisayarlı görmenin gelişimini ilerletiyor

Şu yayını okuyorsunuz: Intel Laboratuvarları iki yeni yapay zeka modeliyle bilgisayarlı görmenin gelişimini ilerletiyor

Açık kaynaklı AI modelleri VI-Depth 1.0 ve MiDaS 3.1, bilgisayar görüşü için derinlik tahminini geliştirir.

Derinlik tahmini, robotik, artırılmış gerçeklik (AR) ve sanal gerçeklik (VR) alanlarında çok çeşitli uygulamalar oluşturmak için gerekli olan zorlu bir bilgisayarlı görme görevidir. Mevcut çözümler genellikle mesafeleri doğru bir şekilde tahmin etmekte zorlanır; bu, görsel navigasyon söz konusu olduğunda hareketi planlamaya ve engellerden kaçınmaya yardımcı olmak için çok önemli bir husustur. Intel Laboratuvarı araştırmacıları, monoküler derinlik tahmini için iki yapay zeka modeli piyasaya sürerek bu sorunu çözmeye çalışıyor: biri görsel ve eylemsiz derinlik tahmini, diğeri ise sağlam göreceli derinlik tahmini (RDE).

En son RDE modeli olan MiDaS sürüm 3.1, girdi olarak yalnızca tek bir görüntü kullanarak sağlam göreceli derinlik öngörüyor. Geniş ve çeşitli bir veri seti üzerinde eğitimi nedeniyle, daha geniş bir yelpazedeki görev ve ortamlarda verimli bir şekilde performans gösterebilir. MiDaS’ın en son sürümü, daha büyük eğitim seti ve güncellenmiş kodlayıcı omurgaları ile RDE için model doğruluğunu yaklaşık %30 oranında artırıyor.

MiDaS, başta Stable Diffusion 2.0 olmak üzere birçok projeye dahil edilmiştir; burada bir giriş görüntüsünün derinliğini anlayan ve ardından hem metin hem de derinlik bilgisini kullanarak yeni görüntüler üreten görüntü derinliği fonksiyonunu etkinleştirir. Örneğin, dijital yaratıcı İskoç tilkisi 360 derecelik bir sanal gerçeklik ortamı oluşturmak için Stabil Difüzyon ve MiDaS kombinasyonunu kullandı. Bu teknoloji, mahkeme davaları için olay yerinin yeniden yapılandırılması, sağlık hizmetleri için tedavi edici ortamlar ve sürükleyici oyun deneyimleri dahil olmak üzere yeni sanal uygulamalara yol açabilir.

RDE iyi bir genelleme yeteneğine sahip ve kullanışlı olsa da ölçek eksikliği, haritalama, planlama, navigasyon, nesne tanıma, 3 boyutlu yeniden yapılandırma ve görüntü düzenleme gibi derinlik ölçümleri gerektiren aşağı yönlü görevler için kullanışlılığını azaltır. Intel Laboratuvarlarındaki araştırmacılar, doğru derinlik tahmini sağlayan başka bir yapay zeka modeli olan VI-Depth’in piyasaya sürülmesiyle bu sorunu çözmeye çalışıyor.

VI-Depth, metrik ölçekte yoğun derinlik tahminleri üretmek için monoküler derinlik tahminini ve görsel eylemsiz odometriyi (VIO) birleştiren görsel bir eylemsiz derinlik tahmin hattıdır. Bu yaklaşım, sahnenin yeniden yapılandırılmasına, haritalandırılmasına ve nesne manipülasyonuna yardımcı olabilecek doğru derinlik tahmini sağlar.

Atalet verilerinin dahil edilmesi ölçek belirsizliğinin çözülmesine yardımcı olabilir. Çoğu mobil cihaz halihazırda eylemsiz ölçüm birimleri (IMU’lar) içerir. Küresel hizalama uygun küresel ölçeği belirlerken yoğun ölçek hizalaması (SML) yerel olarak çalışır ve bölgeleri doğru metrik derinliğe doğru iter veya çeker. SML ağı, kodlayıcının omurgası olarak MiDaS’tan yararlanır. Modüler hat içerisinde VI-Depth, IMU sensör ölçüm ünitesinin yanı sıra veriye dayalı derinlik tahminini MiDaS göreceli derinlik tahmin modeliyle birleştirir. Veri kaynaklarının birleştirilmesi, VI-Depth’in görüntüdeki her piksel için daha güvenilir bir yoğun derinlik ölçüsü oluşturmasına olanak tanır.

MiDaS 3.1 Ve VI-Derinlik 1.0 GitHub’da açık kaynak MIT lisansı altında mevcutturlar.

Daha fazla bilgi için bakınız “Yoğun Tahmin için Görüntü Transformatörleri” Ve “Güçlü Monoküler Derinlik Tahminine Doğru: Sıfır Atışlı Çapraz Veri Kümesi Aktarımı için Veri Kümesi Karıştırma.”

Size şunları öneriyoruz: