Blogs

Çapraz doğrulama türleri ve bunların ne zaman kullanılacağı: Yapay zekaya doğru

Şu yazıyı okuyorsunuz: Çapraz doğrulama türleri ve bunların ne zaman kullanılacağı: Yapay zekaya doğru

Çapraz doğrulama türleri ve bunların ne zaman kullanılacağı

İlk olarak dünyanın önde gelen yapay zeka ve teknoloji haber ve medya şirketi Towards AI’da yayınlandı. Yapay zeka ile ilgili bir ürün veya hizmet yaratıyorsanız sizi yapay zeka destekçisi olmayı düşünmeye davet ediyoruz. Towards AI’da yapay zeka ve teknoloji girişimlerinin ölçeklenmesine yardımcı oluyoruz. Teknolojinizi kitlelere ulaştırmanıza yardımcı olalım.

Modellerinizi test etmenin daha iyi bir yolu

Genel açıklama

Makine öğrenimi modelleri oluşturmak, birkaç adım içeren büyük bir süreçtir

Veri seti
Veri hazırlama ve ön işleme
Sergi veri analizi
Özellik Seçimi ve Mühendislik
Model Oluşturma ve Değerlendirme

Çapraz doğrulama en önemli parçalardan biridir. Modellerin oluşturulması ve değerlendirilmesi.
Çapraz Doğrulamayı denemeden önce bunun ne olduğuna ve onu neden kullanmaya önem vermemiz gerektiğine bakalım.

Neden çapraz doğrulama?

Diyelim ki 10000 satırlık (örnek) bir veri setimiz var ve onunla bir model oluşturmak istiyoruz. Basit bir yol, veri bölünmüş tren testi yapmak ve bununla bir model oluşturmak olabilir. iyi??
Ancak test bölümünü eğittiğimizde, random_state= değerine bir değer atarız. 0,42,69,100 herhangi bir şey olabilir. Ve random_state’in değerini her değiştirdiğinizde farklı bir eğitim ve test veri seti elde edeceksiniz (kontrol etmekten çekinmeyin, ancak benim sözüme güvenebilirsiniz).
Ve her farklı bölünmede farklı hassasiyet performansı elde edeceksiniz; dolayısıyla her biri farklı sonuçlara sahipken doğru rastgele durumu seçtiğinizden nasıl emin olabilirsiniz?
Çapraz doğrulamanın kullanışlı olduğu yer burasıdır. Modelimizi eğitmek ve test etmek ve bu yinelemenin genel doğruluğunu ortalamak amacıyla verilerimizi farklı bölmeler yapmak için çapraz doğrulamayı kullanırız. Modelimizin genel performansını görmek için.

Çapraz doğrulama nedir?

Veri setimizi farklı veri parçalarına ayırıyoruz. 10000 satırımız varsa ve 5 yineleme yapmak istiyorsak. İlk 8000 satırı eğitim verileri olarak ve son 2000 satırı test verileri olarak alabiliriz (80/20’lik bir bölünme olduğunu varsayalım).
Bir sonraki yinelemede ilk 6000 ve son 2000 satırı eğitim verisi, geri kalan 2000 satırı ise test verisi olarak alabiliriz.
Aynı işlemi yaparak farklı eğitim ve test verilerine sahip 5 farklı veri kümesi oluşturuyoruz.
İşte Çapraz Doğrulamanın harika bir görselleştirmesi. (Kaynak: Kaggle)

Çapraz doğrulama türleri

Temel olarak 5 tür çapraz doğrulama vardır

Saklama doğrulama yaklaşımı
Birini dışarıda bırakın Çapraz doğrulama
K Katlamalı Çapraz Doğrulama
Katmanlı K-katlı çapraz doğrulama
Tekrarlanan rastgele test treni bölünmeleri

Saklama doğrulama yaklaşımı, verilerin bir kısmını test amacıyla sakladığımız normal tren testi bölme yöntemimizdir.
Burada Birini Dışarıda Bırakma çapraz doğrulamasını ve tekrarlanan rastgele test dizisi bölmeleri yaklaşımını tartışmayacağız çünkü bunlar nadiren kullanılır ve çoğu projenizde bunlara ihtiyacınız olmayabilir.
Açıklama için burada Meme Kanseri Wisconsin veri setini kullanacağım. Bu makalenin ana odağı çapraz doğrulama olduğundan, harika özellik mühendisliği adımlarının nasıl gerçekleştirileceğiyle ilgili ayrıntılara girmeyeceğim.

Veri Hazırlama

Artık modelimizi bu verilerle oluşturabilir ve farklı çapraz doğrulama tekniklerini kullanabiliriz.

Saklama doğrulama yaklaşımı

Bu modelin sonucu 0,9239766081871345
Bu, verilerimizin bir kısmını doğrulama için sakladığımız ve geri kalanını eğitim modeli için kullandığımız basit tren testi bölümüdür.

K Katlamalı Çapraz Doğrulama

Puanlar =[0.9122807 0.92982456 0.89473684 0.98245614 0.98245614 0.98245614, 0.96491228 0.96491228 0.96491228 1.]
Ortalama Puan = 0,9578947368421054
K Fold Cross Validation’da verilerimizi k farklı bölmeye tabi tutuyoruz. Doğrulama için k’inci katımızın bir kısmını seçin ve verilerin geri kalanını eğitim için kullanın.
Verilerimizi her seferinde rastgele bölerek bu k kez tekrarlayın; sonuçta yeni bir eğitim ve test veri seti elde edilir.
Bu bize modelimizin farklı senaryolardaki genel performansını verecektir.

Katmanlı K-katlı çapraz doğrulama

Dengesiz bir veri seti ile çalışırken bu yaklaşımı kullanırız.
Bu, modelimizi eğitmek ve test etmek için uygun bir veri setine sahip olabilmemiz için sınıf yüzdelerini koruyacak farklı bölünmeler verecektir.

Puanlar =[0982456140894736840947368420947368420982456140982456140947368420982456140947368421[0982456140894736840947368420947368420982456140982456140947368420982456140947368421[0982456140894736840947368420947368420982456140982456140947368420982456140947368421[0982456140894736840947368420947368420982456140982456140947368420982456140947368421
Ortalama Puan= 0,9614035087719298
Bu konuda daha derin bir bilgi şuna bakın:

K Fold Katmanlı Çapraz Doğrulama – GeeksforGeeks

Çözüm

Çapraz doğrulamayı kullanmak istiyorsanız K-katlı çapraz doğrulamayı kullanın; veri kümeniz dengesizse ve önceden dengelemediyseniz, katmanlı K-katlı çapraz doğrulamayı kullanabilirsiniz.
Açıkçası çapraz doğrulama yapmanın başka yolları da var, ancak burada bahsedilenler çoğu problem için en yaygın olarak kullanılanlardır.
Umarım bu makaleyi beğenmişsinizdir. Eklemek istediğiniz veya fikrinizi belirtmek istediğiniz bir şey varsa lütfen bunu yapın çünkü bu benim ve başkalarının gelişmesine büyük ölçüde yardımcı olacaktır.

Çapraz doğrulama türleri ve bunların ne zaman kullanılacağı ilk olarak Medium’da Towards AI’da yayınlandı; burada insanlar bu hikayeyi vurgulayarak ve yanıtlayarak sohbete devam ediyor.

Towards AI aracılığıyla yayınlandı

Diğer ilginç konular:

Table of Contents

Bunların Çapraz doğru doğrulama kullanılacağı türleri Yapay zaman zekaya

Python Makine Öğrenimi Modellerini Kolaylıkla Sunma: Yapay Zekaya Doğru