İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Bu AI makalesi, ChatGPT’nin performansını, açıklanabilirliğini, kalibrasyonunu ve doğruluğunu sistematik olarak analiz etmeyi önermektedir.

Gönderiyi okuyorsunuz: Bu AI makalesi, ChatGPT’nin performansını, açıklanabilirliğini, kalibrasyonunu ve doğruluğunu sistematik olarak analiz etmeyi önermektedir.

OpenAI tarafından geliştirilen ChatGPT, şu anda insanın niyetini anlayan en popüler geniş dil modelidir (LLM). Kaliteli içerik üretir ve insan benzeri konuşmalar yapmasıyla ünlüdür. LLM’ler büyük miktarda metinsel veri üzerinde eğitilir ve doğal dil işleme (NLP) ve doğal dil anlama (NLU) konularında olağanüstü yetenekler gösterirler. Yüksek öğrenim, derin öğrenmeyi kullanarak doğal dili işler ve dille ilgili görevlerde başarılı olur.

ChatGPT ve PaLM gibi LLM’ler, uygun talimatlar veya görev tanımının yardımıyla görünmeyen görevlerde son derece iyi performans gösterir. Hatta bu tür görevlerdeki performanslarını artırmak için Düşünce Zinciri (CoT) istemlerini bile kullanıyorlar; bu, Yüksek Lisans’ın kendi gerekçelerini açıklamasına olanak tanıyan bir yönlendirme yöntemidir. CoT ipuçları, modele yanıtlarını yönlendirmek için bir dizi ilgili ipucu sağlar.

Yakın zamanda yayınlanan bir araştırma makalesinde yazarlar, ChatGPT’nin performansını ve ayrıntılı bilgi çıkarma (IE) görevlerini gerçekleştirme konusundaki genel yeteneğinin nasıl değerlendirileceğini analiz ettiler. Bilgi çıkarma (IE), bir metin gövdesi gibi yapılandırılmamış veya yarı yapılandırılmış bir veri kaynağından yapılandırılmış bilgiler gibi belirli bilgilerin otomatik olarak çıkarılması işlemidir. Gerçek bilgileri kullanarak ve farklı bilgileri hedefleyerek heterojen yapıları ortaya çıkarır ve ChatGPT’nin yeteneklerini değerlendirmek için ideal bir ortam haline getirir.

ChatGPT yanıtlarını değerlendirmek, yüksek performansa ulaşma yeteneğinizin değerlendirilmesini ve yanıtlarınızın güvenilirliğinin ölçülmesini gerektirir. Kullanıcıların ChatGPT yanıtlarının genel kalitesini daha iyi anlamalarına yardımcı olmak için makalenin yazarları dört metrik boyut tasarladı: performans, açıklanabilirlik, kalibrasyon ve doğruluk. Performans, ChatGPT’nin çeşitli IE görevlerinde çeşitli perspektiflerden genel performansını ifade eder. Açıklanabilirlik, ChatGPT’nin tahmini için haklı bir neden sağlayıp sağlayamayacağını değerlendirir. Karar verme süreciniz hakkında fikir verir. Kalibrasyon, bir modelin tahmin belirsizliğini ölçer ve ChatGPT’nin tahminine aşırı güvenip güvenmediğini değerlendirir. Son olarak Fidelity, ChatGPT tarafından sağlanan açıklamaların girişte doğru mu yoksa yanlış mı olduğunu belirler.

Yazarlar deneylerini ve analizlerini, bazıları Adlandırılmış Varlık Tanıma (NER), İlişki Çıkarma (RE) ve olayların (EE) dahil olduğu 7 ayrıntılı EI görevine ait 14 veri setine dayanarak gerçekleştirdiler. Sonuçlar, ChatGPT’nin standart IE ayarlarındaki performansının zayıf olduğunu, dolayısıyla yapılandırılmış bilgilerin çıkarılmasını gerektiren görevlerde sorunları olduğunu gösteriyor. Öte yandan, yapılandırılmamış metinden bilgilerin çıkarılmasını içeren OpenIE yapılandırmasında mükemmel performans gösterir. Bu sonuçlar, insan değerlendiricilerin ChatGPT yanıtlarını uygun ve yüksek kalitede derecelendirdiği insan değerlendirmesiyle kanıtlanmıştır.

Yazarlar, ChatGPT’nin kararları için nasıl yüksek kaliteli, güvenilir açıklamalar sağladığını, ancak aşırı güvenli doğasının düşük kalibrasyona yol açtığını, yani tahmin edilen olasılıkların gerçek olasılıklarla eşleşmediğini paylaştılar. ChatGPT çoğu durumda orijinal metne yüksek düzeyde sadakat gösterir ve bu nedenle orijinal metnin anlamına ve amacına sadık kalır.

Sonuç olarak, bu araştırma ChatGPT ve benzeri LLM’leri değerlendirmek için değerli bir çerçeve sağlayarak kullanıcıların yanıtlarının genel kalitesini daha iyi anlamalarına olanak tanıyor. ChatGPT’nin Bilgi Çıkarma Yetenekleri Üzerine Bir Araştırma: Performansının, Açıklanabilirliğinin, Kalibrasyonunun ve Doğruluğunun Değerlendirilmesi