İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Bu AI belgesi, bir Persona atandığında ChatGPT’nin toksisitesinin nasıl altı kata kadar artabileceğini gösteriyor

Gönderiyi okuyorsunuz: Bu AI belgesi, bir Persona atandığında ChatGPT’nin toksisitesinin nasıl altı kata kadar artabileceğini gösteriyor

Son teknolojik gelişmelerle birlikte, GPT-3 ve PaLM gibi büyük dil modelleri (LLM’ler), eğitim, içerik oluşturma, sağlık hizmetleri, araştırma vb. gibi çok çeşitli alanlarda olağanüstü üretim yetenekleri sergilemiştir. Örneğin, bu büyük dil modelleri özellikle yazarların yazma stillerini geliştirmelerine yardımcı olmak ve yeni yetişen geliştiricilerin ortak kod oluşturmalarına yardımcı olmak için özellikle yararlıdır. Ek olarak, çeşitli üçüncü taraf API’lerin mevcudiyeti ile birleştiğinde, LLM’nin yaygın olarak benimsenmesi, yalnızca öğrencilere yönelik sistemler ve hastaneler tarafından kullanılan sağlık sistemleri gibi tüketiciye yönelik çeşitli sistemlerde arttı. Ancak bu tür senaryolarda, insanların hassas kişisel bilgiler konusunda bu sistemlere güvenmesi nedeniyle bu sistemlerin güvenliği kritik bir konu haline geliyor. Bu, LLM’lerin farklı yetenekleri ve sınırlamaları hakkında daha net bir resim elde etme ihtiyacını gerektirmektedir.

Ancak önceki araştırmaların çoğu, daha gelişmiş ve sofistike mimariler kullanarak Yüksek Lisans’ları daha güçlü hale getirmeye odaklanmıştı. Bu araştırma, NLP topluluğunu önemli ölçüde aşmış olsa da, bu sistemlerin güvenliğini de bir kenara bırakmıştır. Bu cephede, Princeton Üniversitesi ve Georgia Tech’ten doktora sonrası öğrencilerden oluşan bir ekip, OpenAI’nin devrim niteliğindeki yapay zeka sohbet robotu ChatGPT’nin toksisite analizini gerçekleştirerek bu açığı kapatmak için Allen Yapay Zeka Enstitüsü’ndeki (A2I) araştırmacılarla işbirliği yaptı. Araştırmacılar yarım milyondan fazla ChatGPT neslinin toksisitesini değerlendirdi ve araştırmaları, ChatGPT’nin sistem parametresi bir kişinin kendisine atanacağı şekilde ayarlandığında, toksisitesinin geniş bir denek yelpazesi için birkaç kat arttığını ortaya çıkardı. . Örneğin, ChatGPT’nin kişiliği boksör “Muhammed Ali”nin kişiliğine ayarlandığında, toksisitesi varsayılan ayara kıyasla neredeyse üç kat artar. ChatGPT şu anda bu tür sistem düzeyindeki değişikliklerle aynı düzeyde toksisite üretebilecek başka teknolojilerin geliştirilmesi için bir temel olarak kullanıldığından, bu özellikle endişe vericidir. Bu nedenle, A2I araştırmacıları ve üniversite öğrencileri tarafından yapılan çalışmalar, farklı kişilere atanan ChatGPT nesillerindeki bu toksisiteye ilişkin daha derin bir anlayış kazanmaya odaklanmıştır.

ChatGPT API, kullanıcının, sistem parametrelerini ayarlayarak bir kişiyi atamasına olanak tanıyan bir özellik sağlar; böylece kişi, ChatGPT’nin sohbet etme şeklini etkileyerek konuşmanın geri kalanının tonunu ayarlar. Araştırmacılar, kullanım durumları için iş adamları, politikacılar, gazeteciler vb. gibi farklı geçmişlerden ve ülkelerden 90 kişiden oluşan bir liste seçtiler. Bu kişiler ChatGPT’ye cinsiyet, din, meslek gibi yaklaşık 128 kritik öğeye ilişkin yanıtlarını analiz etmek üzere görevlendirildi. , vesaire. Ekip ayrıca daha fazla bilgi toplamak için ChatGPT’den bu varlıklardaki bazı eksik ifadelerle devam etmesini istedi. Nihai bulgular, bir kişiyi ChatGPT’ye atamanın, ChatGPT’nin sıklıkla sert sonuçlar üretmesi ve olumsuz stereotiplere ve inançlara kapılması nedeniyle toksisitesini altı kata kadar artırabileceğini gösterdi.

Ekibin araştırması, sonuçların zehirliliğinin, ChatGPT verilen kişiye bağlı olarak önemli ölçüde değiştiğini gösterdi; araştırmacılar bunun, kişinin eğitim verilerine dayanarak ChatGPT’yi anlamasından kaynaklandığını öne sürüyor. Örneğin bir bulgu, pratikte durum böyle olmasa da gazetecilerin iş adamlarından iki kat daha zehirli olduğunu ileri sürdü. Çalışma ayrıca belirli popülasyonların ve varlıkların diğerlerinden daha sık (neredeyse üç kat daha fazla) saldırıya uğradığını gösterdi; bu da modelin doğası gereği ayrımcı davranışını ortaya koyuyor. Örneğin toksisite kişinin cinsiyetine göre değişir ve ırka dayalı toksisiteden yaklaşık %50 daha yüksektir. Bu dalgalanma eğilimleri kullanıcılara zarar verebilir ve söz konusu bireyi küçük düşürebilir. Ek olarak kötü niyetli kullanıcılar, ChatGPT’de şüphelenmeyen bir hedef kitleye zarar verebilecek içerik oluşturmak için teknolojiler oluşturabilir.

Bu çalışmanın ChatGPT toksisitesine ilişkin analizi temel olarak üç şeyi ortaya çıkardı: Karakterler atandığında model önemli ölçüde daha toksik olabilir (varsayılandan altı kata kadar daha toksik olabilir), ChatGPT’nin görüşüne göre modelin toksisitesi karakterin kimliğine bağlı olarak büyük ölçüde değişir. önemli bir rol oynayan kişinin; ve ChatGPT, onlar hakkında içerik oluştururken daha toksik davranarak belirli varlıkları ayrımcı bir şekilde hedefleyebilir. Araştırmacılar ayrıca, deneyleri için kullandıkları LLM’nin ChatGPT olmasına rağmen metodolojilerinin diğer herhangi bir LLM’ye genişletilebileceğini de belirtti. Ekip, çalışmalarının yapay zeka topluluğunu etik, güvenli ve güvenilir yapay zeka sistemleri sağlayan teknolojiler geliştirmeye motive edeceğini umuyor.