Konu Modellemede Vektör Tabanlı Teknolojiyi Uygulamak için Yapay Zekanın Kullanımı: Yapay Zekaya Doğru

Şu yazıyı okuyorsunuz: Konu Modellemede Vektör Tabanlı Teknolojiyi Uygulamak için Yapay Zekayı Kullanmak – Yapay Zekaya Doğru

İlk olarak dünyanın önde gelen yapay zeka ve teknoloji haber ve medya şirketi Towards AI’da yayınlandı. Yapay zeka ile ilgili bir ürün veya hizmet yaratıyorsanız sizi yapay zeka destekçisi olmayı düşünmeye davet ediyoruz. Towards AI’da yapay zeka ve teknoloji girişimlerinin ölçeklenmesine yardımcı oluyoruz. Teknolojinizi kitlelere ulaştırmanıza yardımcı olalım.

giriiş

Bu yazıda Twitter’dan aldığımız 50 bin Kovid ile ilgili tweet’i, dünya çapında insanlar tarafından tartışılan ana konuları çıkarmak için yapay zekayı kullanarak analiz edeceğiz.

Bu kadar yapılandırılmamış veri söz konusu olduğunda, verilerinizi okumak ve sınıflandırmak için haftalar gerekir. Ancak, en son NLP modellerini doğru şekilde nasıl kullanacağımızı bilirsek, bu devasa görev çocuk oyuncağı olabilir.

Bu görevi gerçekleştirmek için adı verilen modelleri kullanacağız. kodlayıcılar ve benzer konuları otomatik bir şekilde gruplandırmamıza olanak tanıyan bir yöntem konu modelleme.

Metin kodlaması

Doğrudan kodumuz üzerinde çalışmaya başlamadan önce, ilk olarak onun arkasındaki mantığı açıklayacağız. Bu görevi gerçekleştirmek için kullanacağımız ana tekniğe kodlama veya vektörleştirme denir. Gömme adı verilen modelleri kullanarak düz metni yüksek boyutlu bir alana (yüzlerce boyut) ait geometrik koordinatlara dönüştürebiliriz.

Uzaydaki her nokta bir metni temsil eder. Kodlayıcıların değeri, benzer anlamlara sahip metni uzayda birbirine daha yakın yerleştirebilmeleridir. Bu benzersiz araçla, verileri ortak eğilimler halinde gruplandırmak için makine öğrenimi tekniklerini uygulayabiliriz.

Konu modelleme nedir ve neden önemlidir?

Konu modelleme, düz metne uygulandığında derlemde tartışılan ana konuları ortaya çıkarabilen bir algoritmadır. Tüm tweetlerimizi vektörleştirdikten ve yüksek boyutlu Kartezyen düzlemimizde 50.000 noktaya sahip olduktan sonra, bunları kümeleme tekniklerini kullanarak gruplandırabiliriz.

Her nokta grubu benzer anlamları, dolayısıyla benzer temaları paylaşacaktır. 50.000 örneği birkaç yüz ayrı gruba ayırabiliriz. Her gruptan en sık kullanılan anahtar kelimeyi çıkararak, her bir grubu karşılık gelen konuyla etiketleyebileceğiz.

Elde! Bu projede ele almamız gereken 4 bölüm var:

Web kazıma:

Örnek derlememiz olarak ilk olarak 6 ay içerisinde Kovid-19 aşısıyla ilgili 50 bin tweet toplayacağız. Kullanacağımız Python kütüphanesinin adı snscrape.

Bilginize: https://github.com/JustAnotherArchivist/snscrape

Bu örnek derlemede yalnızca iki veri parçasını tutuyoruz: atılan tweet’in zamanı ve tweet’lerin metni.

2. Kodlama:

Şimdi bu projenin öne çıkan noktalarına geçiyoruz! Metin verilerini sayısal verilere dönüştürdüğümüz için buna parça kodlama da diyebiliriz. Kullanacağımız Python kütüphanesine, önceden eğitilmiş çeşitli kodlama modellerini uygulamamıza yardımcı olabilecek SentenceTransformer adı verilmektedir. Kullandığımız SentenceTransformer’ın önceden eğitilmiş modeli all-MiniLM-L6-v2’dir ve her tweet için 768 boyut oluşturacaktır. Bu model sağlam ve hızlıdır. SentenceTransformer’ın önceden eğitilmiş modelleri hakkında daha fazla ayrıntı görmek için şuraya göz atın: https://www.sbert.net/docs/pretrained_models.html daha fazla bilgi için.

Not: Veri setimizin metin vektörünü saklamak için fazladan bir sütun eklemeyi unutmayın.

3. Gruplandırma:

Kümelemeye zaten aşina olabilirsiniz. KMeans’ı scikit-learn’ün Python kütüphanesinden içe aktaralım. Daha sonra korpusumuz için kaç tane küme istediğimizi tanımlayabiliriz. Genel bir kural olarak, 10.000’den fazla örnekte verilerimizi 200 gruba ayıracağız.

4. Ekran:

Verilerimizi gruplamayı bitirdikten sonra. Sonucu görselleştirmek ve kümeleme modelimizin tweetleri farklı konulara nasıl gruplandırdığını görmek istiyoruz. Ancak insan olarak kümelenme görselleştirmemizi anlayabilmemiz için görselleştirme öncesi boyutu 768 boyuttan 2 boyuta indirgememiz gerekiyor.Evet. Boyut küçültme için kullandığımız boyut azaltma algoritması umap’tır.

Bilginize: https://umap-learn.readthedocs.io/en/latest/

Matplotlib.plotly kullanarak renkli iki boyutlu bir çizim oluşturarak kümelememizi bu şekilde görselleştiriyoruz..

Bilginize: https://www.activestate.com/blog/trazado-de-datos-en-python-matplotlib-vs-plotly/

Güzel grafiğimizde görebileceğiniz gibi 50 bin tweetimiz iki boyutlu bir düzlemde 200 renkle 200 gruba gruplanıyor. Grafik, aynı konu altında aynı renk kullanılarak gruplandırılmış tweet’leri temsil edecektir.

Çözüm

Metindeki benzerliği, kelime sıklığını ve kalıpları tarayarak bütünü kümelediğimizden, insanlar Kovid-19 aşısı hakkında konuşurken en popüler eğilimlerin neler olduğunu kolayca anlayabiliyoruz. Bu algoritmadan elde edilebilecek bilgiler, verileri sürekli izlemesi gereken halk sağlığı sektörü ve hükümetler için değerli olacaktır.

Konu Modellemede Vektör Tabanlı Teknolojiyi Uygulamak için Yapay Zekanın Kullanımı ilk olarak Towards AI on Medium’da yayınlandı; burada insanlar bu hikayeyi vurgulayarak ve yanıtlayarak sohbeti sürdürüyorlar.

Towards AI aracılığıyla yayınlandı

Diğer ilginç konular:

Table of Contents