CMU araştırmacıları Zeno'yu sunuyor: makine öğrenimi (ML) modellerinin davranışını değerlendirmeye yönelik bir çerçeve - İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Yazıyı okuyorsunuz: CMU araştırmacıları Zeno’yu sunuyor: makine öğrenimi (ML) modellerinin davranışını değerlendirmek için bir çerçeve

Yapay zeka destekli sistemlerin prototipini oluşturmak her zaman daha karmaşık olmuştur. Ancak prototipi bir süre kullandıktan sonra daha işlevsel olabileceğini keşfedebilirsiniz. Not almak için bir sohbet robotu, metinden görseller oluşturmak için bir düzenleyici ve müşteri geri bildirimlerini özetlemek için bir araç, temel programlama bilgisi ve birkaç saat ile oluşturulabilir.

Gerçek dünyada, makine öğrenimi (ML) sistemleri sosyal önyargılar ve güvenlik kaygıları gibi konuları bünyesinde barındırabilir. Yaya tespit modellerindeki ırksal önyargılardan belirli tıbbi görüntülerin sistematik olarak yanlış sınıflandırılmasına kadar, klinisyenler ve araştırmacılar sürekli olarak en son teknolojiye sahip modellerde önemli sınırlamalar ve kusurlar keşfederler. Davranışsal değerlendirme veya test, model sınırlamalarını keşfetmek ve doğrulamak için yaygın olarak kullanılır. Alt gruplar veya girdi verilerinin bölümleri için model çıktı modellerini anlamak, hassasiyet veya F1 puanı gibi toplu ölçümleri incelemenin ötesine geçer. ML mühendisleri, tasarımcıları ve alan uzmanları gibi paydaşlar, bir modelin beklenen ve potansiyel hatalarını belirlemek için birlikte çalışmalıdır.

Davranışsal değerlendirmeler yapmanın önemi geniş çapta vurgulanmıştır, ancak bunu yapmak hala zordur. Ek olarak, eşitlik araç setleri gibi pek çok popüler davranışsal değerlendirme aracı, gerçek dünyadaki profesyonellerin genellikle uğraştığı modeller, veriler veya davranışlarla uyumlu değildir. Uygulayıcılar, modelleri değerlendirmek ve en uygun dağıtım sürümünü uygun şekilde seçmek için kullanıcılardan ve paydaşlardan özenle seçilmiş vakaları manuel olarak test eder. Modeller genellikle profesyoneller modelin kullanılacağı ürün veya hizmetlere aşina olmadan önce oluşturulur.

Bir makine öğrenimi modelinin belirli bir görevi ne kadar iyi tamamlayabileceğini anlamak, model değerlendirmesinin zorluğudur. Modellerin performansı yalnızca toplu göstergeler kullanılarak kabaca tahmin edilebilir; tıpkı IQ testinin insan zekasının yalnızca yaklaşık ve kusurlu bir ölçüsü olması gibi. Örneğin, doğru dilbilgisi gibi kritik yetenekleri NLP sistemlerine dahil etmekte başarısız olabilirler veya sosyal önyargılar gibi sistemik kusurları örtbas edemezler. Standart test yöntemi, verilerin bir alt kümesine ilişkin genel bir performans ölçüsünün hesaplanmasını içerir.

Bir modelin hangi özelliklere sahip olması gerektiğini belirlemenin zorluğu davranışsal değerlendirme alanı için önemlidir. Karmaşık alanlarda, gereksinimler listesinin test edilmesi imkansızdır çünkü bunlardan sonsuz sayıda olabilir. Bunun yerine, makine öğrenimi mühendisleri, bir modeli yinelemeden ve dağıtmadan önce modelin beklenen yeteneklerini tanımlamak için etki alanı uzmanları ve tasarımcılarla işbirliği yapar. Kullanıcılar, ürün ve hizmetlerle etkileşimleri yoluyla model kısıtlamaları ve beklenen davranışlar hakkında geri bildirim sağlar ve bunlar daha sonra modelin gelecekteki yinelemelerine dahil edilir.

ML değerlendirme sistemlerinde model davranışlarını tanımlamak, doğrulamak ve izlemek için birçok araç vardır. Araçlar, adalet endişeleri ve uç durumlar gibi kalıpları ortaya çıkarmak için veri dönüşümlerini ve görselleştirmeleri kullanır. Zeno diğer sistemlerle birlikte çalışır ve diğerlerinin yöntemlerini birleştirir. Bir veri setinin alt kümelerine ilişkin metrikleri hesaplayan alt grup veya dilim bazlı analiz, Zeno’ya en yakın davranışsal değerlendirme yöntemidir. Zeno artık herhangi bir alan veya etkinlik için metamorfik ve slayt tabanlı testlere izin veriyor.

Zeno, bir Python uygulama programlama arayüzü (API) ve bir grafik kullanıcı arayüzünden (GUI) oluşur. Model sonuçları, ölçümler, meta veriler ve değiştirilmiş örnekler, Python API işlevleri olarak uygulanabilecek davranışsal değerlendirmenin temel bileşenlerinden yalnızca birkaçıdır. API sonuçları, davranışsal değerlendirmeler ve testler gerçekleştirmek için ana arayüzü oluşturmaya yönelik bir çerçevedir. Zeno’nun iki ana ön uç görünümü vardır: veri keşfi ve segmentler oluşturmak için kullanılan keşif kullanıcı arayüzü ve testler oluşturmak, raporlar oluşturmak ve performansı izlemek için kullanılan analiz kullanıcı arayüzü.

Zeno, bir Python betiği aracılığıyla halka sunulmaktadır. Svelte ile yazılan yerleşik arayüz, görüntüler için Vega-Lite’ı ve veri işleme için Arquero’yu kullanıyor; bu kütüphane Python paketine dahildir. Kullanıcılar, bir TOML yapılandırma dosyasındaki test dosyaları, veri yolları ve sütun adları da dahil olmak üzere gerekli yapılandırmayı belirledikten sonra komut satırından Zeno işlemeye ve arayüze başlar. Zeno’nun kullanıcı arayüzünü bir URL uç noktası olarak barındırma yeteneği, bunun yerel olarak veya başka bilgisayarlarla birlikte bir sunucuda konuşlandırılabileceği ve kullanıcıların buna kendi cihazlarından erişmeye devam edebileceği anlamına gelir. Bu çerçeve, milyonlarca örnek içeren veri kümeleriyle test edilmiş ve kanıtlanmıştır. Bu nedenle, büyük konuşlandırılmış senaryolara iyi bir şekilde ölçeklendirilmesi gerekir.

ML ortamında, her biri belirli bir modele veya verilere göre uyarlanmış çok sayıda çerçeve ve kitaplık bulunur. Zeno büyük ölçüde özelleştirilebilir Python tabanlı model çıkarımına ve veri işleme API’sine güvenmektedir. Araştırmacılar, çoğu makine öğrenimi kütüphanesi Python’u temel aldığından ve bu nedenle aynı parçalanmaya maruz kalmasına rağmen, çoğu modern makine öğrenimi modelini destekleyebilen bir dizi Python dekorasyon yöntemi olarak zeno için arka uç API’yi geliştirdiler.

Araştırma ekibi tarafından yürütülen vaka çalışmaları, uygulayıcıların veri kümeleri ve işlerdeki önemli model kusurlarını ortaya çıkarmalarına yardımcı olmak için Zeno’nun API’si ve kullanıcı arayüzünün birlikte nasıl çalıştığını gösterdi. Daha geniş anlamda, çalışmanın bulguları davranışsal değerlendirme çerçevesinin çeşitli veri ve modeller için yararlı olabileceğini göstermektedir.

Kullanıcının ihtiyaçlarına ve eldeki görevin zorluklarına bağlı olarak Zeno’nun çeşitli olanakları, davranışsal değerlendirmeyi daha basit, daha hızlı ve daha doğru hale getirdi. Durum 2’deki katılımcı, model analizi meta verilerini oluşturmak için API’nin genişletilebilirliğini kullandı. Vaka çalışması katılımcıları, Zeno’yu mevcut iş akışlarına dahil etmede ve Zeno API ile iletişim kurmak için kod yazmada çok az zorluk yaşadıklarını veya hiç zorluk yaşamadıklarını bildirdiler.

Kısıtlamalar ve önleyici tedbirler

Hangi davranışların son kullanıcılar için önemli olduğunu ve bir model tarafından kodlandığını bilmek davranışsal değerlendirme açısından büyük bir zorluktur. Araştırmacılar, kullanıcıların Zeno işlevlerini paylaşabilecekleri ve model işlevlerinin yapı iskelesi keşifleri için yeniden kullanımını teşvik etmek üzere ilgili analiz bileşenlerini daha kolay bir şekilde bulabilecekleri işbirliğine dayalı bir veri havuzu olan ZenoHub’u aktif olarak geliştiriyor.
Zeno’nun birincil işlevi, veri segmentlerindeki metrikleri tanımlamak ve test etmektir, ancak araç, verileri ve segmentleri görüntülemek için yalnızca sınırlı ızgara ve tablo görünümleri sunar. Zeno’nun kullanışlılığı, çeşitli sağlam görselleştirme yöntemlerinin desteklenmesiyle geliştirilebilir. Kullanıcılar, DendroMap, Facets veya AnchorViz gibi anlamsal benzerlikleri kodlayan örnek görünümleri kullanarak verilerindeki yeni modelleri ve davranışları daha iyi keşfedebilir. ML Cube, Neo ve ConfusionFlow, Zeno’nun model davranışlarını daha iyi görüntülemek için değiştirebileceği ML performans görselleştirmelerinden yalnızca birkaçıdır.
Zeno’nun paralel bilgi işlem ve önbelleğe alma özelliği onun büyük veri kümelerine ölçeklenmesine olanak tanırken, makine öğrenimi veri kümelerinin boyutu hızla artıyor. Bu nedenle, daha fazla iyileştirme, işlemeyi büyük ölçüde hızlandıracaktır. Ray gibi bir kitaplık kullanarak dağıtılmış bilgi işlem kümelerinde işlem yapmak gelecekteki bir yükseltme olabilir.
Çok büyük tablolardaki çoklu histogramların çapraz filtrelenmesi başka bir engeldir. Zeno, devasa veri kümelerinde gerçek zamanlı çapraz filtrelemeyi kolaylaştırmak için Falcon gibi bir optimizasyon yöntemi kullanabilir.

Sonuç olarak –

Bir makine öğrenimi modeli, eğitim verileri üzerinde yüksek doğruluk elde etse bile, gerçek dünyadaki olumsuz önyargılar ve güvenlik riskleri gibi sistemik kusurlardan hâlâ zarar görebilir. Uygulayıcılar, bu tür eksiklikleri tespit etmek ve gidermek için model çıktılarını belirli girdiler açısından inceleyerek modellerinin davranışsal bir değerlendirmesini gerçekleştirir. Önemli ama zor olan davranışsal değerlendirme, gerçek dünyadaki kalıpların keşfedilmesini ve sistemik başarısızlıkların doğrulanmasını gerektirir. Makine öğrenimi davranışını değerlendirmek, önyargılar ve güvenlik sorunları da dahil olmak üzere sorunlu model davranışlarını belirlemek ve düzeltmek için çok önemlidir. Bu çalışmada yazarlar MO değerlendirmesinin zorluklarını araştırdılar ve çeşitli bağlamlarda derecelendirme modelleri için evrensel bir yöntem geliştirdiler. Uygulayıcıların gerçek dünya modellerini değerlendirdiği dört vaka çalışması aracılığıyla araştırmacılar, Zeno’nun birden fazla alanda nasıl uygulanabileceğini gösterdi.

Birçok insanın yapay zekanın gelişimi konusunda büyük umutları var. Ancak eylemlerinin karmaşıklığı yetenekleriyle aynı hızda gelişir. Davranış gelişimini sağlamak ve insani değerlerle uyumlu akıllı sistemlerin inşasını sağlamak için güçlü kaynaklar şarttır. Zeno, kullanıcıların yapay zeka ile ilgili çok çeşitli işlerde bu tür derinlemesine incelemelere girmelerine olanak tanıyan esnek bir platformdur.

CMU araştırmacıları Zeno’yu sunuyor: makine öğrenimi (ML) modellerinin davranışını değerlendirmeye yönelik bir çerçeve

Size şunları öneriyoruz: