İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Çapraz doğrulama türleri ve bunların ne zaman kullanılacağı: Yapay zekaya doğru

Şu yazıyı okuyorsunuz: Çapraz doğrulama türleri ve bunların ne zaman kullanılacağı: Yapay zekaya doğru

Çapraz doğrulama türleri ve bunların ne zaman kullanılacağıÇapraz doğrulama türleri ve bunların ne zaman kullanılacağı

İlk olarak dünyanın önde gelen yapay zeka ve teknoloji haber ve medya şirketi Towards AI’da yayınlandı. Yapay zeka ile ilgili bir ürün veya hizmet yaratıyorsanız sizi yapay zeka destekçisi olmayı düşünmeye davet ediyoruz. Towards AI’da yapay zeka ve teknoloji girişimlerinin ölçeklenmesine yardımcı oluyoruz. Teknolojinizi kitlelere ulaştırmanıza yardımcı olalım.

Modellerinizi test etmenin daha iyi bir yolu

Genel açıklama

Makine öğrenimi modelleri oluşturmak, birkaç adım içeren büyük bir süreçtir

  1. Veri seti
  2. Veri hazırlama ve ön işleme
  3. Sergi veri analizi
  4. Özellik Seçimi ve Mühendislik
  5. Model Oluşturma ve Değerlendirme
  • Çapraz doğrulama en önemli parçalardan biridir. Modellerin oluşturulması ve değerlendirilmesi.
  • Çapraz Doğrulamayı denemeden önce bunun ne olduğuna ve onu neden kullanmaya önem vermemiz gerektiğine bakalım.

Neden çapraz doğrulama?

  • Diyelim ki 10000 satırlık (örnek) bir veri setimiz var ve onunla bir model oluşturmak istiyoruz. Basit bir yol, veri bölünmüş tren testi yapmak ve bununla bir model oluşturmak olabilir. iyi??
  • Ancak test bölümünü eğittiğimizde, random_state= değerine bir değer atarız. 0,42,69,100 herhangi bir şey olabilir. Ve random_state’in değerini her değiştirdiğinizde farklı bir eğitim ve test veri seti elde edeceksiniz (kontrol etmekten çekinmeyin, ancak benim sözüme güvenebilirsiniz).
  • Ve her farklı bölünmede farklı hassasiyet performansı elde edeceksiniz; dolayısıyla her biri farklı sonuçlara sahipken doğru rastgele durumu seçtiğinizden nasıl emin olabilirsiniz?
  • Çapraz doğrulamanın kullanışlı olduğu yer burasıdır. Modelimizi eğitmek ve test etmek ve bu yinelemenin genel doğruluğunu ortalamak amacıyla verilerimizi farklı bölmeler yapmak için çapraz doğrulamayı kullanırız. Modelimizin genel performansını görmek için.

Çapraz doğrulama nedir?

  • Veri setimizi farklı veri parçalarına ayırıyoruz. 10000 satırımız varsa ve 5 yineleme yapmak istiyorsak. İlk 8000 satırı eğitim verileri olarak ve son 2000 satırı test verileri olarak alabiliriz (80/20’lik bir bölünme olduğunu varsayalım).
  • Bir sonraki yinelemede ilk 6000 ve son 2000 satırı eğitim verisi, geri kalan 2000 satırı ise test verisi olarak alabiliriz.
  • Aynı işlemi yaparak farklı eğitim ve test verilerine sahip 5 farklı veri kümesi oluşturuyoruz.
  • İşte Çapraz Doğrulamanın harika bir görselleştirmesi. (Kaynak: Kaggle)

Çapraz doğrulama türleri

Temel olarak 5 tür çapraz doğrulama vardır

  1. Saklama doğrulama yaklaşımı
  2. Birini dışarıda bırakın Çapraz doğrulama
  3. K Katlamalı Çapraz Doğrulama
  4. Katmanlı K-katlı çapraz doğrulama
  5. Tekrarlanan rastgele test treni bölünmeleri
  • Saklama doğrulama yaklaşımı, verilerin bir kısmını test amacıyla sakladığımız normal tren testi bölme yöntemimizdir.
  • Burada Birini Dışarıda Bırakma çapraz doğrulamasını ve tekrarlanan rastgele test dizisi bölmeleri yaklaşımını tartışmayacağız çünkü bunlar nadiren kullanılır ve çoğu projenizde bunlara ihtiyacınız olmayabilir.
  • Açıklama için burada Meme Kanseri Wisconsin veri setini kullanacağım. Bu makalenin ana odağı çapraz doğrulama olduğundan, harika özellik mühendisliği adımlarının nasıl gerçekleştirileceğiyle ilgili ayrıntılara girmeyeceğim.

Veri Hazırlama

  • Artık modelimizi bu verilerle oluşturabilir ve farklı çapraz doğrulama tekniklerini kullanabiliriz.

Saklama doğrulama yaklaşımı

  • Bu modelin sonucu 0,9239766081871345
  • Bu, verilerimizin bir kısmını doğrulama için sakladığımız ve geri kalanını eğitim modeli için kullandığımız basit tren testi bölümüdür.

K Katlamalı Çapraz Doğrulama

  • Puanlar =[0.9122807 0.92982456 0.89473684 0.98245614 0.98245614 0.98245614, 0.96491228 0.96491228 0.96491228 1.]
  • Ortalama Puan = 0,9578947368421054
  • K Fold Cross Validation’da verilerimizi k farklı bölmeye tabi tutuyoruz. Doğrulama için k’inci katımızın bir kısmını seçin ve verilerin geri kalanını eğitim için kullanın.
  • Verilerimizi her seferinde rastgele bölerek bu k kez tekrarlayın; sonuçta yeni bir eğitim ve test veri seti elde edilir.
  • Bu bize modelimizin farklı senaryolardaki genel performansını verecektir.

Katmanlı K-katlı çapraz doğrulama

  • Dengesiz bir veri seti ile çalışırken bu yaklaşımı kullanırız.
  • Bu, modelimizi eğitmek ve test etmek için uygun bir veri setine sahip olabilmemiz için sınıf yüzdelerini koruyacak farklı bölünmeler verecektir.
  • Puanlar =[0982456140894736840947368420947368420982456140982456140947368420982456140947368421[0982456140894736840947368420947368420982456140982456140947368420982456140947368421[0982456140894736840947368420947368420982456140982456140947368420982456140947368421[0982456140894736840947368420947368420982456140982456140947368420982456140947368421
  • Ortalama Puan= 0,9614035087719298
  • Bu konuda daha derin bir bilgi şuna bakın:

K Fold Katmanlı Çapraz Doğrulama – GeeksforGeeks

Çözüm

  • Çapraz doğrulamayı kullanmak istiyorsanız K-katlı çapraz doğrulamayı kullanın; veri kümeniz dengesizse ve önceden dengelemediyseniz, katmanlı K-katlı çapraz doğrulamayı kullanabilirsiniz.
  • Açıkçası çapraz doğrulama yapmanın başka yolları da var, ancak burada bahsedilenler çoğu problem için en yaygın olarak kullanılanlardır.
  • Umarım bu makaleyi beğenmişsinizdir. Eklemek istediğiniz veya fikrinizi belirtmek istediğiniz bir şey varsa lütfen bunu yapın çünkü bu benim ve başkalarının gelişmesine büyük ölçüde yardımcı olacaktır.


Çapraz doğrulama türleri ve bunların ne zaman kullanılacağı ilk olarak Medium’da Towards AI’da yayınlandı; burada insanlar bu hikayeyi vurgulayarak ve yanıtlayarak sohbete devam ediyor.

Towards AI aracılığıyla yayınlandı

Diğer ilginç konular: