İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

İstatistik 101- Bölüm 3- Parametrik olmayan istatistikler, türleri… – Yapay Zekaya Doğru

Şu yayını okuyorsunuz: İstatistik 101- Bölüm 3- Parametrik olmayan istatistikler, türleri… – Yapay Zekaya Doğru

İlk olarak dünyanın önde gelen yapay zeka ve teknoloji haber ve medya şirketi Towards AI’da yayınlandı. Yapay zeka ile ilgili bir ürün veya hizmet yaratıyorsanız sizi yapay zeka destekçisi olmayı düşünmeye davet ediyoruz. Towards AI’da yapay zeka ve teknoloji girişimlerinin ölçeklenmesine yardımcı oluyoruz. Teknolojinizi kitlelere ulaştırmanıza yardımcı olalım.

Parametrik Olmayan İstatistiklere Giriş, Farklı Parametrik Olmayan Test Türleri ve Uygulamaları

Parametrik Olmayan İstatistik kavramlarının detaylı olarak anlatılacağı İstatistik 101 serisinin üçüncü bölümüdür. Gerçek dünyada her zaman normal dağılım gibi iyi tanımlanmış bir veri dağılımı elde edemeyebiliriz. Bu gibi durumlarda parametrik olmayan istatistikleri uygulamak zorundayız.

İstatistik 101 serisinin ilk bölümünde, normal dağılım göstermeyen örnek veriler için hipotez testinin, parametrik olmayan testlerin bir örneği olan Mood’un medyan testleri gibi farklı bir dağılım kümesini içereceğinden bahsedilmişti.

İçerik

  • Tanım
  • Parametrik olmayan test türleri
  • Uygulamalar
  • Makine Öğreniminde parametrik olmayan modeller

Tanım

Normal dağılımdan bahsederken örneklerin alındığı evren hakkında bazı varsayımlarda bulunuruz. Bu varsayımların aksine, parametrik olmayan istatistikler nüfus dağılımlarının şekline ilişkin bu tür varsayımlarda bulunmaz. Bu nedenle dağıtımdan bağımsız istatistikler olarak da bilinirler. Dağılımın şekli hakkında herhangi bir varsayımda bulunmama avantajına ek olarak, bu istatistikler parametrik yöntemlerin gerektirdiği kadar hesaplama çabası gerektirmez.

Bu yöntemlerin de kendi dezavantajları bulunmaktadır. Parametrik yöntemlerle elde edilen kadar fazla bilgi yakalamazlar. Eğer 190.2, 202.45, 345.56 gibi değerlerin listesini 1, 2 ve 3 olarak temsil ediyorsak bazı bilgileri gözden kaçırmış olabiliriz.

Parametrik olmayan test türleri

Bu testleri detaylandırıyoruz:

  1. işaret testi

Bir çift gözlemin değerlerinden ziyade olumlu ya da olumsuz yönü ile ilgilidir. Örneğin, bir antrenman programından önce ve sonra bir çift ağırlığımız varsa ve programdan önce ve sonra ağırlıklardaki farkın pozitif veya negatif örnek sayısını hesaplarsak. Burada sıfır hipotezi ağırlıklar arasında bir fark olmadığı, alternatif hipotez ise ağırlıklar arasında bir fark olduğu şeklinde olacaktır. Farkları hesaplamanın ve bunun pozitif mi yoksa negatif bir sayı mı olduğunu belirlemenin basitliğine dikkat edin. İşaret testinin uygulanmasına şu şekilde değinilebilir: Burada.

2. Sıra toplamı testi

Varyans testi analizi gerçekleştirmek için popülasyonların eşit varyanslarla normal şekilde dağıldığını varsayarız. Ancak bu koşullar sağlanamadığında sıra toplamı testini kullanırız. İki popülasyon olduğunda Mann-Whitney testi, ikiden fazla popülasyon olduğunda Kruskal-Wallis testi kullanılır. Burada, örneklerdeki her veri noktası sınıflandırıldıkça ve U istatistikleri hesaplandıkça aralık terimi ortaya çıkar.

Mann-Whitney testinin hipotezleri aşağıdadır:

İki popülasyona dayalı bir senaryo için U istatistiklerinin formülü aşağıda gösterilmiştir:

burada n1= örnek 1’deki veri noktası sayısı, n2= örnek 2’deki veri noktası sayısı ve R1= örnek 1’deki her veri noktasının sıralama toplamı.

Kruskal-Wallis testi için hipotezler aşağıda sunulmaktadır:

Bu durumda K istatistiği kullanılır:

burada, n = tüm örneklerdeki veri noktalarının sayısının toplamı, j = j örneği ve Rj = j örneğindeki tüm veri noktalarının sıralarının toplamı.

3. Bir numune testi çalıştırır

Çoğu zaman örneklemin rastgele seçildiğini varsayarız. Ancak bu her zaman doğru olmayabilir. Pek çok topla dolu bir torbadan kırmızı ve yeşil toplardan örnekler almamız gereken bir senaryo varsayalım. Aşağıdaki örneği bulduk (Yeşil-G, Kırmızı-R):

RRR GGG RRR GGG RR GG

Yukarıdaki örnek rastgele oluşturulamayabilir. Örneklerin rastgeleliğini test etmek için testi çalıştırdık.

Burada boş hipotez, öğelerin (yani topların) rastgele karıştırıldığı, alternatif hipotez ise öğelerin rastgele karıştırılmadığıdır.

Bir yürütme, aynı olayların bir dizisidir. Yukarıdaki örnekte RRR bir yarıştır ve GG de bir yarıştır.

4. Sıra korelasyonu

Sıra korelasyonu, iki sıra kümesi arasındaki korelasyonu aralarındaki benzerlik açısından ölçebileceğiniz korelasyon ve sıralama fikrini bir araya getirir.

Altı ülkeden oluşan bir listemiz varsa ve bu ülkelerin GSYİH (Gayri Safi Yurtiçi Hasıla) ve İGE (İnsani Gelişme Endeksi) açısından sıralamaları varsa, sıralama korelasyonu şu şekilde hesaplanır:

burada d = her bir ülke çifti arasındaki aralıklar arasındaki fark, n = eşleştirilmiş gözlemlerin sayısı (burada altı tane var). 1 değeri, iki değişken arasındaki mükemmel ilişkiyi temsil eder. Burada sıfır hipotezi popülasyona ait sınıflandırılmış veriler arasında bir korelasyon olmadığını, alternatif hipotez ise sınıflandırılmış veriler arasında bir korelasyon olduğunu belirtmektedir.

5. Kolmogorov-Smirnov (KS) testi

İki örnek arasında anlamlı bir fark olup olmadığını veya gözlenen frekans dağılımının teorik dağılımla aynı olup olmadığını test etmek istediğimiz durumlarda Kolmogorov-Smirnov testi kullanılacaktır. Bu, bu testin Ki-Kare testine çok benzer şekilde uyum iyiliğini ölçmek için kullanılabileceği anlamına gelir. Kümülatif dağılımı kullanarak nüfusun spesifik dağılımına karar verin.

Yukarıdaki türlere ek olarak Kuiper testi, Tukey-Duckworth testi, log-rank testi ve diğerleri gibi birçok başka test de vardır.

Uygulamalar

Bu testler, bir işletme yöneticisinin veya başka birinin karar vermesi veya bazı varsayımları test etmesi gereken durumlara uygulanabilir. Parametrik olmayan testler, parametrik testlerin spesifik verilerine ilişkin varsayımların karşılanmadığı, örneklem büyüklüğünün oldukça küçük olduğu ve verilerin sıralı sıralamalar gibi nominal veya sıralı olduğu durumlarda yaygın olarak kullanılmaktadır.

Ek Notlar: Makine Öğreniminde Parametrik Olmayan Modeller

Benzer şekilde parametrik olmayan algoritmalar da girdi ve çıktı verileri arasındaki ilişki hakkında hiçbir varsayımda bulunmaz. Parametrik olmayan algoritmaların sabit sayıda parametresi yoktur ancak eğitim verilerinin miktarına bağlıdırlar. Doğrusal regresyon parametrik bir algoritmanın bir örneğidir ve K-en yakın komşular parametrik olmayan bir algoritmanın bir örneğidir.

beni takip et (kumarkaushal.bit) veri bilimi ve istatistikle ilgili daha ilginç konular için.

Referanslar


İstatistik 101 – Bölüm 3 – Parametrik Olmayan İstatistikler, Türleri ve Uygulamaları ilk olarak Towards AI on Medium’da yayınlandı; burada insanlar bu hikayeyi vurgulayarak ve yanıtlayarak sohbete devam ediyorlar.

Towards AI aracılığıyla yayınlandı

Diğer ilginç konular:

Table of Contents