Taklit oyununu ortadan kaldırmanın zamanı geldi

Yazıyı okuyorsunuz: Taklit oyununu ortadan kaldırmanın zamanı geldi

Daha çok ‘Turing Testi’ adıyla bilinen taklit oyununun artık modası geçmiş gibi görünüyor. Olağanüstü bilgisayar bilimcisi Alan Turing tarafından 1950’de oluşturulan bu test, yapay zekanın insanlar üzerindeki etkisini ölçmek için uzun süredir temel bir kural olarak kullanılıyor. Test, bir bilgisayarın mı yoksa bir insanın mı bir dizi cevap sağladığını ayırt etmekle görevli bir insan değerlendiriciyi görevlendirerek çalışır. Bu, insan benzeri bir yapay zeka algoritmasının etkinliğini büyük ölçüde belirlemeyi başardı ancak artık bir kenara bırakılıyor.

Dünyanın en büyük Turing testine dayanan yeni araştırma, yapay zeka algoritmalarının artık çalışmayacak noktaya geldiğini gösteriyor. Turing, kendi takdirine göre, 50 yıl içinde bilgisayarların taklit oyununu o kadar iyi oynayacağını ve ortalama bir sorgulayıcının bunun bir yapay zeka mı yoksa insan mı olduğunu tahmin etme şansının %70’ten fazla olmayacağını öngördü. Başka bir deyişle yapay zeka insanların %30’unu kandırabilir.

Yapay zeka araştırmacıları, modern algoritmalarla bu sayının Turing’in tahmini civarında olduğunu ve %68’inin insanlarla konuşurken partnerlerini doğru tahmin ettiğini buldu. Ancak sınava girenlerin bir yapay zeka botuyla karşı karşıya kaldığı durumlarda kullanıcılar yalnızca %60 oranında haklıydı. Bu, insanların yüzde 40’ının bir yapay zeka ajanıyla konuştuklarını bilmediğini gösteriyor; bu da yapay zekanın artık insanları kandırmasının mümkün olduğunu gösteriyor.

Dünyanın en büyük Turing testi

NLP ve diğer yapay zeka çözümleri sunan bir şirket olan AI21 Labs, yakın zamanda ‘İnsan mı Değil mi?’ adlı bir oyun yaptı. Bu uygulama, kullanıcıların birisiyle 2 dakika boyunca sohbet edebildiği Turing testinin web sürümüdür. Bundan sonra onlara bir insanla mı yoksa bir botla mı konuştuğunu öğrenme fırsatı veriliyor. Bu oyunlaştırılmış test beklenmedik bir şekilde viral oldu ve 2 milyondan fazla insan-bot konuşması topladı.

Deneylerden elde edilen bazı önemli bilgiler, insanların bir insan arkadaşını tanımlamayı daha kolay bulduğunu ortaya çıkardı. İlginçtir ki Hindistan %63,5 ile en düşük doğru tahmin yüzdesine sahipken, Fransa %71,3 ile en yüksek doğru tahmin oranına sahip oldu. Ek olarak, genç yaş grupları yaşlılara göre daha iyi tahmin etme eğilimindedir.

Oyun, insan kullanıcıları GPT-4 veya Jurassic-2 gibi önde gelen LLM’lerle karşı karşıya getirdi, ancak insan kullanıcıları alt etmek için kendi tuhaflıkları ve püf noktaları da vardı. Araştırmacılar, birçok kullanıcının büyük dil modellerine ilişkin algıladığı sınırlamaların ChatGPT ve diğer benzer arayüzleri kullanma deneyimlerinden kaynaklandığını belirterek ilginç bir noktaya değindi. Bu nedenle, tahmin etmeyi zorlaştırmak için algoritmalarına ekstra bir karmaşıklık katmanı eklediler.

Örneğin AI21 Laboratuvarları, botların genellikle dilbilgisi hataları yapmadığı veya argo kullanmadığı varsayımından yararlandı. Araştırmacılar, modellerini yaygın yazım hatalarını yapmaları ve daha insani görünmeleri için moda sözcükler kullanmaları konusunda bilinçli olarak eğittiler. Benzer şekilde insanlar da kişisel bir soruyu sormanın veya yanıtlamanın algoritmaların uğraştığı bir şey olduğunu hissettiler. Ancak botlar, kolayca kişisel hikayeler oluşturmak için eğitim verilerine başvurabildiler ve bu da insanları daha da kandırdı.

Yapay zekaya karşı insanların diğer bazı önyargıları arasında, botların güncel olaylardan habersiz olduğu, felsefi veya etik sorgulamalar yapamadığı, son derece kibar (başarısızlık noktasına kadar) ve bazı gizli sorulara yanıt verme yeteneğinden yoksun olduğu varsayımları yer alıyor. sorular. İlginç bir şekilde, deneme başına verilen 2 dakikalık zaman diliminde bile kullanıcılar, DAN gibi yöntemleri kullanarak LLM’yi jailbreak yapmaya çalıştı.

Bu sadece modern Yüksek Lisans’ın yeteneklerine ışık tutmakla kalmıyor, aynı zamanda Turing testinin bazı sınırlamalarını da ortaya çıkarıyor. Bazı sınav katılımcıları, cümlelerini botların anlayamayacağı yanıltıcı şekillerde ifade ederek, insanları botlardan elemeyi başardılar. Bu, yalnızca doğal dil yeteneğini değerlendiren testin bir sınırlamasıdır.

Araştırmalar, yüksek lisans eğitimlerindeki ilerlemeler ve insanların yapay zekaya karşı önyargıları hakkındaki bilgiler sayesinde testin geçerliliğini yitirdiğini açıkça gösteriyor. Bununla birlikte bilim camiası, yapay zekanın neler yapabileceğine dair daha kapsamlı bir resim sağlayan daha yetenekli başka ölçütler de sundu. Bu testler aynı zamanda modern yapay zekanın yetenekleriyle de günceldir.

Turing’in ötesinde düşünmek

Amerikalı psikolog ve yapay zeka uzmanı Gary Marcus, geçmişte Turing testini geçen ilk yapay zeka olan Goostman adlı bir algoritma hakkında yazmıştı. Bu testin öneminden bahsederek şunları söyledi: “Turing testinin gerçek değeri, programcılar ve mühendisler arasında yarattığı rekabet duygusundan geliyor.”

Bu amaçla Marcus, şu anda Marcus testi olarak bilinen testin kendi versiyonunu önerdi. Özetle, eğer bir yapay zeka ‘Simpsonlar’ın bir bölümünü izleyip izleyiciye ne zaman gülmesi gerektiğini söyleyebiliyorsa testi geçmiş demektir.

Ancak adını dünyanın ilk bilgisayar programcısı Ada Lovelace’den alan Lovelace Test 2.0 farklı bir seyir izliyor. Yapay zeka, Lovelace’in testini, eğer “insan düzeyinde zeka gerektirdiği düşünülen sanatsal türlerin bir alt kümesinden yaratıcı bir eser geliştirebilirse” geçebilir. Basitçe söylemek gerekirse bu, insan düzeyinde sanat yaratabilen yapay zeka ajanlarının onaylanmış sayıldığı anlamına gelir. Bu mantıkla Midjourney, görüntü oluşturma algoritmasını kullanan bir sanatçının yarışmayı kazanmasıyla bu testi zaten geçmiş oldu.

Turing testi için buna benzer pek çok alternatif yaratıldı, ancak artık bunların yerini François Chollet’nin ARC’si gibi kıyaslamalar aldı. ARC, bir algoritmanın etkinliğini ölçmek için öznel bir insan bakış açısı kullanmak yerine, belirli algoritmaların yeteneklerini bulmak için akıl yürütmeye ve mantığa güvenir. Her ne kadar bu yöntemler giderek daha fazla benimsense de, Turing’in orijinal vizyonunun bir kenara bırakıldığı görülüyor.

Düşünen bir bilgisayar henüz yaratılmamış olsa da yapay zeka insan eşitliğine ulaştı ve bazı durumlarda bazı alanlarda insanlığı geride bıraktı. Ancak gerçek, akıcı ve genelleştirilmiş zekanın yaratılması hâlâ çok uzakta. O zamana kadar, bir algoritmanın yalnızca etkililiğini değil aynı zamanda insanlığını da ölçmenin daha iyi yollarını bulmalıyız.

Table of Contents

Dünyanın en büyük Turing testi

Size şunları öneriyoruz: