Google AI, Büyük Çok Boyutlu Dizileri Okumak ve Yazmak için Tasarlanmış Açık Kaynak C++ ve Python Kütüphanesi 'TensorStore'u Tanıtıyor - İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Gönderiyi okuyorsunuz: Google AI, büyük, çok boyutlu dizileri okumak ve yazmak için tasarlanmış açık kaynaklı bir C++ ve Python kütüphanesi olan ‘TensorStore’u tanıtıyor

Birçok modern bilgisayar bilimi ve makine öğrenimi uygulaması, tek bir geniş koordinat sistemini kapsayan çok boyutlu veri kümelerini kullanır. Bunun iki örneği, hava durumunu tahmin etmek için coğrafi bir ızgara üzerinde hava ölçümleri kullanmak veya 2D veya 3D taramadan elde edilen çok kanallı görüntü yoğunluğu değerlerini kullanarak tıbbi görüntüleme tahminleri yapmaktır. Kullanıcılar öngörülemeyen aralıklarla ve farklı ölçeklerde veri alıp yazabildiğinden ve çoğu zaman çalışmaları aynı anda birden fazla iş istasyonunda yürütmek isteyebildiğinden, bu veri kümeleriyle çalışmak zorlayıcı olabilir. Bu koşullar altında tek bir veri seti bile petabaytlarca depolama alanı gerektirebilir.

Sinirbilimdeki büyük veri kümelerinin yönetimi ve işlenmesiyle ilgili temel bilimsel bilgi işlem mühendisliği sorunları, Google’ın TensorStore’u kullanılarak zaten çözülmüştür. TensorStore, n boyutlu verilerin depolanması ve işlenmesi sorununu çözmek için Google Research tarafından geliştirilen açık kaynaklı bir C++ ve Python yazılım kütüphanesidir. Bu kitaplık, Google Bulut Depolama, yerel ve ağ dosya sistemleri vb. gibi çeşitli depolama sistemlerini destekler. Çeşitli dizi türlerini okumak ve yazmak için birleşik bir API sağlar. Güçlü atomiklik, izolasyon, tutarlılık ve dayanıklılık (ACID) garantisiyle kitaplık aynı zamanda işlem ve okuma/yazma önbelleği sağlar. İyimser eşzamanlılık, farklı süreçlerden ve ekiplerden güvenli erişim sağlar.

Çok büyük veri kümelerini yüklemek ve bunlarla çalışmak için TensorStore aracılığıyla basit bir Python API’si mevcuttur. Keyfi olarak büyük temel veri kümeleri, tüm veri kümesini belleğe kaydetmeden yüklenebilir ve değiştirilebilir, çünkü kesin bölüm istenene kadar hiçbir gerçek veri okunmaz veya bellekte saklanmaz. Bu, NumPy işlemleri için kullanılanla büyük ölçüde aynı olan indeksleme ve manipülasyon sözdizimi ile mümkündür. TensorStore tarafından desteklenen ek gelişmiş indeksleme özellikleri arasında dönüşümler, hizalama, akış ve sanal görünümler (veri türü dönüştürme, altörnekleme, tembel olarak anında oluşturulan diziler) yer alır.

Büyük sayısal veri kümelerinin işlenmesi ve analiz edilmesi çok fazla işlem gücü gerektirir. Bu genellikle, birden fazla cihaza dağıtılmış çok sayıda CPU çekirdeği veya hızlandırıcı arasındaki işlemlerin paralelleştirilmesiyle elde edilir. Bu nedenle, TensorStore’un temel amacı, yüksek performansı (yani TensorStore’a okuma ve yazma, hesaplama sırasında bir darboğaz haline gelmez) ve güvenliği (eş zamanlı erişim modellerinden kaynaklanan bozulma veya tutarsızlıkları önleyerek) korurken, bireysel veri setlerinin paralel işlenmesini sağlamak olmuştur. ). TensorStore ayrıca okuma veya yazma işleminin arka planda devam etmesine izin veren eşzamansız bir API’ye sahiptir. Aynı zamanda, bir program diğer görevleri tamamlar ve bellek içi önbelleğe almayı özelleştirir (sık erişilen veriler için daha yavaş depolama sistemi etkileşimlerini azaltır). İyimser eşzamanlılık, birçok makinenin aynı veri setine eriştiği durumlarda paralel operasyonların güvenliğini sağlar. Performansı ciddi şekilde etkilemeden, birden fazla temel depolama katmanına yönelik desteği korur. TensorStore ayrıca birçok mevcut veri işleme iş akışıyla uyumlu TensorStore ile dağıtılmış bilgi işlemi mümkün kılmak için Apache Beam ve Dask gibi paralel bilgi işlem çerçeveleriyle de entegre edilmiştir.

TensorStore için heyecan verici uygulama örnekleri arasında PaLM ve diğer gelişmiş büyük dil modelleri yer almaktadır. Bu sinir ağları, yüz milyarlarca parametreyle hesaplama altyapısının sınırlarını test ederken, doğal dil oluşturma ve işleme konusunda beklenmedik bir beceri sergiliyor. Model parametrelerinin okunması ve yazılmasındaki verimlilik, bu eğitim prosedürü sırasında zorluk teşkil etmektedir. Eğitim çok sayıda makineye dağıtılmış olsa da, eğitim sürecini yavaşlatmadan parametrelerin uzun vadeli bir depolama sistemindeki tek bir kontrol noktasına rutin olarak kaydedilmesi gerekir. Bu sorunlar zaten TensorStore ile çözülmüştür. T5X ve Pathways gibi çerçevelerle birleştirildi ve JAX ile eğitilmiş büyük ölçekli (“multipod”) modellere bağlı kontrol noktalarını kontrol etmek için kullanıldı.

Beyin haritalaması başka bir ilgi çekici kullanım örneğidir. Sinaps çözümleyici konnektomlar, hayvan ve insan beyinlerindeki bireysel sinapsların karmaşık ağının izini sürmeyi amaçlamaktadır. Bu, beynin milimetre veya daha fazlasına kadar görüş alanlarını kapsayan son derece yüksek çözünürlükte görüntülenmesiyle üretilen petabayt boyutunda veri kümelerini gerektirir. Bununla birlikte, verileri bir koordinat sistemi içerisinde depolamak, işlemek ve işlemek için milyonlarca gigabayta ihtiyaç duyulduğundan, mevcut veri kümeleri önemli depolama, manipülasyon ve işleme sorunları ortaya çıkarmaktadır. Temel nesne depolama sistemi olarak Google Cloud Storage ile TensorStore, en büyük ve en popüler konnektomik veri kümelerinden bazılarının oluşturduğu hesaplama sorunlarını çözmek için kullanıldı.

Başlamak için Google Araştırma, basit komutlarla kurulabilen TensorStore paketini sağladı. Ayrıca ileride başvurmak üzere çeşitli eğitimler ve API belgeleri de yayınladılar.

Github: https://github.com/google/tensorstore

Referans makalesi: https://ai.googleblog.com/2022/09/tensorstore-for-high- Performance.html

Bakınız öğreticiler Ve API belgeleri kullanım detayları için.

Lütfen katılmayı unutmayın ML alt dizimiz

Yüzlerce Harika Yapay Zeka Aracını bulmak için https://aitoolsclub.com adresini ziyaret edin

Google AI, Büyük Çok Boyutlu Dizileri Okumak ve Yazmak için Tasarlanmış Açık Kaynak C++ ve Python Kütüphanesi ‘TensorStore’u Tanıtıyor

Size şunları öneriyoruz: