Rastgele Orman hakkında her şey: Yapay zekaya doğru

Şu yayını okuyorsunuz: Rastgele Orman Hakkında Her Şey: Yapay Zekaya Doğru

İlk olarak dünyanın önde gelen yapay zeka ve teknoloji haber ve medya şirketi Towards AI’da yayınlandı. Yapay zeka ile ilgili bir ürün veya hizmet yaratıyorsanız sizi yapay zeka destekçisi olmayı düşünmeye davet ediyoruz. Towards AI’da yapay zeka ve teknoloji girişimlerinin ölçeklenmesine yardımcı oluyoruz. Teknolojinizi kitlelere ulaştırmanıza yardımcı olalım.

Bu yazımızda aşağıdaki soruları cevaplayarak Rastgele Ormanı anlayacağız:

Rastgele orman nedir?
Neden Rastgele Orman kullanıyoruz?
Rastgele Orman nasıl çalışır?
Rastgele Ormanın avantajları ve dezavantajları nelerdir?
Python kullanarak Rastgele Ormanı nasıl uygulayabiliriz?

Rastgele orman nedir?

Rastgele Orman, denetimli bir makine öğrenimi algoritmasıdır. Bu algoritma hem sınıflandırma problemlerinde hem de regresyon problemlerinde çalışabildiği için oldukça popülerdir. Bu algoritmanın ana fikri, çoklu karar ağaçlarını eğitmek, tahminlerini toplamak ve sınıflandırma durumunda çoğunluk sayımı kullanarak veya regresyon durumunda ortalamayı alarak nihai sonucu tahmin etmektir.

Rastgele Orman, topluluk torbalama tekniğine çok benzeyebilir, ancak Rastgele Ormanda iki temel fark vardır. İlk fark, torbalama tekniğinden farklı olarak rastgele ormanın temel algoritma olarak yalnızca bir karar ağacı kullanmasıdır. İkinci fark, rastgele ormanın, temel modele beslenmeden önce verilere daha fazla rastgelelik katmasıdır.

Neden Rastgele Orman kullanıyoruz?

Yukarıdaki soruyu cevaplamak için öncelikle karar ağaçlarının dezavantajlarını anlamamız gerekiyor. Bildiğimiz gibi karar ağacı başlı başına çok güçlü bir denetimli makine öğrenme algoritmasıdır. Ancak eğitim veri setine aşırı uyum sağlama eğilimi vardır ve bu da yeni veri noktalarının zayıf tahmin edilmesine yol açar. Özetle, tamamen geliştirilmiş bir karar ağacı öncelikle düşük yanlılığa ve yüksek varyansa sahip bir model sağlar. Burada rastgele orman devreye giriyor. Rastgele orman, aynı anda birden fazla karar ağacını eğiterek yüksek varyanslı, düşük önyargılı modeli düşük varyanslı, düşük önyargılı bir modele dönüştürür. Rastgele ormandaki her karar ağacı, eğitim veri setinin bir alt kümesini elde eder ve sonucu buna göre tahmin eder. Daha sonra bu rastgele orman, bu sonuçları toplar ve nihai tahmine ulaşmak için farklı işlemler gerçekleştirir.

Karar Ağacı hakkında bilgi edinmek için aşağıdaki bağlantıya tıklayın

Karar ağacı hakkında her şey

Fakat bu işlem co-bagging tekniği kullanılarak da yapılabilir. O halde yine şu soru ortaya çıkıyor: Neden rastgele orman?

Torbalama yerine rastgele ormanların kullanılmasının temel nedeni, rastgele ormanların eğitim verilerine daha fazla rastgelelik katmasıdır. Rastgele bir ormanda, eğitim verilerinin örneklenmesi, karar ağacındaki bir düğümün her bölünmesinde meydana gelir; ancak torbalama örneklemesinde, ağaç oluşumunun başlangıcında meydana gelir.

Rastgele Orman nasıl çalışır?

Rastgele ormanın işleyişi üç ana aşamaya ayrılabilir. İlk adım, rastgele ormandaki her karar ağacı için veri setini örneklemek olacaktır. Örnekleme genel olarak üç şekilde yapılabilir:

başlangıç
Yapıştırılmış
Rastgele altuzay

başlangıç: Burada, eğitim veri setinin alt kümeleri, rastgele sıralar/demetler değiştirilerek seçilerek oluşturulur; bu, veri setlerinin satırlarının tekrarlanabileceği anlamına gelir.

Yapıştırılmış: Burada, eğitim veri setinin alt kümeleri, değiştirilmeden rastgele satırlar/demetler seçilerek oluşturulur; bu, veri setlerinin satırlarının tekrarlanamayacağı anlamına gelir.

Rastgele altuzay: Burada rastgele özellikler/sütunlar seçilerek eğitim veri setinin bir alt kümesi oluşturulur.

Örneklemenin ardından ikinci adım, bireysel karar ağacı modellerinin birbirine bağlı olmadan paralel olarak eğitilmesidir. Artık rastgele orman eğitildiğine göre verileri besleyebiliriz. Her ağaç, sağlanan örnek verilere dayanarak kendi tahminini oluşturacaktır.

Şimdi üçüncü ve son adım, her karar ağacı modelinden tahminleri eklemek ve problem ifadesine bağlı bir matematiksel işlem gerçekleştirmektir. Regresyon problemi ifadesinde genellikle tahminin ortalamasını alıp nihai sonucu veririz. Sınıflandırma problemi ifadeleri için genellikle çoğunluk sayımını alır ve nihai sonucu veririz.

Topluluk tekniği hakkında bilgi edinmek için aşağıdaki bağlantıya tıklayın

Topluluk teknikleri hakkında her şey

Rastgele Ormanın avantajları ve dezavantajları nelerdir?

avantajları:

Rastgele orman kullanmanın temel avantajı, önyargıdan ödün vermeden model varyansını azaltmasıdır. Kısacası, düşük önyargılı, yüksek varyanslı bir modeli düşük önyargılı, düşük varyanslı bir modele dönüştürür.
Rastgele Orman hem sınıflandırma hem de regresyon problemlerinde kullanılabilir.
Rastgele Orman, tek bir karar ağacına kıyasla daha kararlıdır.
Rastgele Orman, eksik değerleri işleyebilir ve aynı zamanda aykırı değerlere karşı da dayanıklıdır.

Dezavantajları:

Rastgele orman, karar ağacına kıyasla daha fazla hesaplama gücüne ihtiyaç duyar çünkü rastgele ormanda 100 ila 500 ağaç paralel olarak eğitilir.
Tek bir karar ağacını görselleştirebiliyoruz ancak ağaç sayısı çok fazla olduğu için rastgele ormanı izleyemiyoruz.

Python kullanarak Rastgele Ormanı nasıl uygulayabiliriz?

Random Forest’ın python’da uygulanması çok basittir, sadece scikit öğrenme modülünü içe aktarmamız yeterlidir. Peki bunu nasıl uygulayabileceğimize bakalım.

Öncelikle önemli python kütüphanelerini import edeceğiz.

Şimdi algoritmanın nasıl çalıştığını görmek için kukla bir veri seti oluşturacağız.

Seaborn kütüphanesini kullanarak veri setini görselleştirelim.

“Turuncu” ve “mavi” olmak üzere iki sınıf olduğunu görebiliriz. Bunu sınıflandırmamız gerekiyor. Şimdi bir sonraki adım verileri eğitim ve test setlerine bölmektir.

İlk olarak, rastgele ormanın nasıl karar ağacından daha iyi performans gösterdiğini karşılaştırmak için karar ağacı ile sınıflandırma yapmaya çalışacağız.

karar ağacının verilere aşırı uyum sağladığını, büyük farklılıklara neden olduğunu ve doğruluğu azalttığını görebiliriz. Karar ağacının doğruluğunu hesaplayalım.

Doğruluk %80’dir. Şimdi rastgele orman algoritmasını eğiteceğiz.

İki algoritmanın karar sınırlarını karşılaştırırsak Rastgele Ormanın karar sınırının düzgün kesimlere sahip olduğunu ve aşırı uyum problemini azalttığını gözlemleyeceğiz.

Üstelik doğruluk %4 oranında artıyor, yani toplamda %84.

Kodlama kısmında daha fazlasını keşfetmek istiyorsanız veya rastgele orman algoritmalarının veri setine nasıl uyduğunu görselleştirmek istiyorsanız. Ardından aşağıdaki Github deposu bağlantısına tıklayın.

Articles_Blogs_Content/Random Forest.ipynb hakkında her şey ana sayfada · Akashdawari/Articles_Blogs_Content

Bu makaleyi faydalı bulduysanız lütfen beğenin ve paylaşın. Ayrıca Makine Öğrenimi ve Derin Öğrenme ile ilgili daha fazla içerik için beni ortamdan takip edin.

Rastgele Orman Hakkında Her Şey ilk olarak Medium’da Towards AI’da yayınlandı; burada insanlar bu hikayeyi vurgulayarak ve yanıtlayarak sohbeti sürdürüyorlar.

Towards AI aracılığıyla yayınlandı

Diğer ilginç konular:

Table of Contents