İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Yapay Zeka Trendleri Mart 2023 – Yapay Zekaya Doğru

Şu yayını okuyorsunuz: Yapay Zeka Trendleri Mart 2023 – Yapay Zekaya Doğru

Meta’dan LLaMA, Google’dan yerleşik bir PALM-E modeli, OpenAI’den tutarlılık modelleri ve yeni API uç noktaları, ayrıca ChatGPT için cazip bir fiyat: 0,002 ABD doları/1 bin token.

Büyük dil modellerinin hızlı gelişimi, 2023’ün bu ilk bölümünü belirlemeye devam ediyor. Bu ay, OpenAI’nin ChatGPT API’sini DaVinci’nin tam uç noktalarının fiyatının 1/10’u kadar bir fiyata piyasaya sürdüğünü gördük ve diğer büyük teknoloji şirketleri Meta ve Google, ChatGPT API’sini piyasaya sürdüler. son modellerinden bazıları (Aramalar Ve UL2). Ayrıca, şununla oynayabildik: Anthropic’ten Claude Poe uygulamasını kullanıyor ve henüz kamuya açıklanmamış olmasına rağmen, yetenekleri ve ChatGPT ile tamamen aynı seviyede olması bizi hoş bir şekilde şaşırttı. Chatbot alanındaki şiddetli rekabet bize seçenekler sunacak ve onları daha iyi ve daha ucuz olmaya zorlayacak.

Üretken yapay zeka girişimleri yükselişe geçiyor ve yatırım yapma telaşı her zamankinden daha güçlü. Burada bir tam uzay pazarı haritası Ollie Forsyth tarafından şirketler ve yatırımcılarla.

Bununla birlikte, araştırmaya dalalım! Her ay en son araştırma literatürünü inceliyor ve bilmeniz gereken 10 makaleden oluşan çeşitli bir dizi seçiyoruz. Bu ay çok modlu dil modelleri, yayılma modelleri, makine çevirisi ve daha fazlası gibi konuları ele alacağız.

❓ Neden → Oluşturulacak yeni bir dizi temel kontrol noktası. Eğer akademide çalışıyorsan!

Anahtar fikirler → Meta’nın bu yeni dil modelleri oldukça adil: bir trilyondan biraz fazla jetonla eğitilmiş, rotasyonel konum yerleştirmelerine sahip standart Transformers. Aşağıda mimari özelliklerini görebilirsiniz:

Bu modeller tamamen kamuya açık veriler üzerinde eğitilmiştir ve çeşitli QA ve sağduyulu muhakeme görevlerinde hem sıfır hem de birkaç çekimde güçlü performans elde etmeyi başarırlar.

Ancak 7B modeliyle biraz oynadık ve yapmasını istediğiniz şeyi yapmasını sağlamak zor. Bu modeller talimatlarla veya RLHF ile ayarlanmamıştır ve onlarla etkileşim kurmanın ne kadar zor olduğu dikkat çekicidir.

Bir başka tartışma noktası da Meta’nın bu modeli yalnızca ticari olmayan araştırma amaçları için piyasaya sürmesi ve bu durumun uygulanabilirliğini büyük ölçüde sınırlamasıdır. Yine de dünyada insanların oynayabileceği ve oynayabileceği kontrol noktaları var. Bu konuda daha fazla bilgi edinmek istiyorsanız, Yannic’in bununla ilgili videosunu izleyin.

Son olarak, en ilginç noktalardan biri, bu modellerin kod çözme stratejisinin, kullanılabilirlikleri üzerinde büyük bir etkiye sahip olabilmesidir, çünkü @elshawwn Twitter’da dikkat çekiyor: Beam_search top_k’yi artırmak, sıcaklığı 0,7’ye ve tekrar oynatma cezasını 0,85’e ayarlamak gözle görülür derecede daha iyi sonuçlar verir!

❓ Neden → Difüzyon modelleri hesaplama açısından pahalıdır çünkü çıktının kodunu birçok kez yinelemeli olarak çözmeleri gerekir.

Anahtar fikirler → Difüzyon modelleri, en son teknolojiye sahip sonuçlar üretmek için parametreler açısından aşırı derecede büyük olmaya ihtiyaç duymaması nedeniyle kötü bir üne sahiptir. Bunun nedeni, bunların onlarca kez yinelemeli olarak uygulanması ve hesaplamalı grafiklerinin tek bir ileri adımın izin verebileceğinden çok daha anlamlı olacak şekilde ortaya çıkarılmasıdır. Ancak bu, GAN, VAE veya Normalleştirme Akışlarından farklı olarak onları yavaşlatır.

Bu çalışma, bir yayılma sürecinin çıktısını keyfi bir derinlik seviyesinde tahmin eden bir modelin öğrenilmesini önermektedir (aşağıdaki şekle bakınız).

Bu modelleri oluşturmanın ana fikri, herhangi bir f(x, t) sıçramasının, adımlarının bileşimi ile tutarlı olması gerektiğinin farkına varmaktır; Gürültüden veriye geçerken farklı atlamaların aynı görüntüde bitmesi gerekir; Yani ismin geldiği yerde olmalılar.

Daha önce aşamalı damıtma, difüzyon modellerini çok daha az kod çözme adımı (örneğin yalnızca 4) gerektiren modellere ayırmak için bir yöntem göstermişti, ancak bu çalışmada bağımsız tutarlılık modellerini eğitmek için bir yöntem öneriyoruz. Küçük görsellerdeki sonuçlar şaşırtıcı olmasa da gelecekteki araştırmalar için umut verici.

❓ Neden → Robotlar x LM’nin en son enkarnasyonu.

Anahtar fikirler → Fiziksel robotlar yalnızca birkaç örnekten öğrenebilirler çünkü eğitimleri ölçeklenebilir değildir (simülasyon yapmadığınız sürece, ancak o kadar anlamlı değildirler) ve LM’ler güçlü ifade öncüllerini kodlar ve istemler aracılığıyla çok verimli öğrenmeye olanak tanır. Neden bunları birlikte kullanmıyorsunuz?

Bu konu şu kişi tarafından başlatıldı: “Sıfır Atış Planlayıcıları Olarak Dil Modelleri: Gömülü Aracılar için Eyleme Geçirilebilir Bilginin Çıkarılması”ve bu çalışma benzer bir fikri bir sonraki aşamaya taşıyor. Kavramsal olarak basittir: Görüntüleri, durumları ve dili paylaşılan bir kelime dağarcığına göre tokenize edin, ardından bir sonraki tokenın tahmini için bir topluluk modelini eğitin. Görüntüleri kodlamak için şunu kullanırlar: Görüş Transformatörü (ViT) ve metni kodlayın avuç içihem Google’dan hem de 562 milyara kadar parametrenin birleşiminden (sırasıyla 22B + 540B).

Bu çalışma kendisini uçtan uca bir çözüm olarak satsa da gerçek şu ki, robot kontrolü hala büyük ölçüde geleneksel tekniklere dayanıyor ve dil modeli yalnızca üst düzey eylem talimatları sağlıyor.

Bu, soru cevaplama ve akıl yürütmede güçlü bir görsel performansla sonuçlanır, ancak belki de en alakalı sonuçlar olumlu aktarımdır: ortak modalite performansı, her bir modalite üzerinde bağımsız olarak eğitilen modellerin performansını çok aşmaktadır. Benzerleri tarafından güçlü bir olumlu transfer sergilenmese de kedi (ki bu vizyon + dil + eylemlerdi, ancak fiziksel dünyada değildi), PaLM-E, belirli fenomenlerin ortaya çıkması söz konusu olduğunda ölçeğin önemini bir kez daha gösteriyor.

❓ Neden → Talimat ayarı gösterge üzerinde de yapılabilir!

Anahtar fikirler → Talimatları ayarlama eğitim görevlerinin ötesinde ve yeni görevlere genelleştirdiği ve insanlar talimat verdiğinde LM’leri daha kullanışlı hale getirdiği gösterilen, etiketli veri setlerini doğal dil öğretim formatında eğitim külliyatına dahil etme tekniğidir.

Bu makale, istemde bunu yaptığınızda ne olacağını araştırıyor; Elinizdeki görevin örneklerini eklemek yerine (örneğin, birkaç adımda öğrenme), ona çeşitli diğer dil görevlerinden örnekler verirsiniz ve sonra ondan yeni bir görevi gerçekleştirmesini istersiniz.

TL; DR, bu gerçekten işe yarıyor! Gerekli sorumluluk reddi, bunu nasıl yaptığınıza dikkat etmeniz gerektiğidir ve bu, “adım adım düşünelim” numarası kadar basit değildir… Ama yine de bu, bağlamsal bilgilerle çok karmaşık bilgilerin girilebileceğinin bir kez daha kanıtıdır. öğrenme ve ön ekli göstergelerin alanı henüz yeni başlamıştır. Bunlar, kullanıcılardan gizlenen istemlerdir ve Microsoft’un ChatGPT ve Sidney’in bize gösterdiği gibi, LM ile ürünler oluşturmak için önemli bir araç haline gelmiştir.

❓ Neden → ChatGPT’nin en az takdir edilen yeteneklerinden biri çeviriydi. Bu şu anda sıkı bir değerlendirmeden geçiyor.

Anahtar fikirler → Bunun genel özü, GPT modellerinin SOTA ve geleneksel makine çevirisi modellerine yakın çalışmasıdır (elbette birçok uyarıyla birlikte, ancak bunun için makaleyi okumanız gerekecek). Ancak bu çalışmadan en sevdiğim derslerden biri, mevcut sinirsel makine çevirisinin ve GPT tabanlı çevirinin tamamlayıcı güçler göstermesidir.

Paralel derlemler konusunda eğitilmediği için, gürültülü veya düşük kaliteli örneklerden veri ezberleme sorunları gibi yaygın hatalardan veya fiziksel birimlerin veya para birimlerinin çevrilmesi gibi çok seyrek görülebilen uzun kuyruk hatalarından kaçınır. corpus.paralellikler.

Genel olarak, bu tür bir çeviri performansının büyük ölçüde denetimsiz ilgiden, talimat ayarlamasından ve özellikle çeviri için tasarlanmayan RLHF’den kaynaklanabileceği etkileyici ve akıllara durgunluk verici olmaya devam ediyor.

❓ Neden → Difüzyon Modellerinin temel güçlü yönlerinden biri, koşullandırma verileriyle eğitim söz konusu olduğunda kolaylık sağlamasıdır; metin kılavuzlu nesilde bu kadar başarılı olmalarının nedeni budur. Bu çalışma kontrol edilebilirliği bir sonraki seviyeye taşıyor.

Anahtar fikirler → Yazarlar, görüntü oluşturma sırasında çok çeşitli görüntü niteliklerini kontrol etmeye izin veren bir yöntem geliştiriyorlar: mekansal düzen, renk paleti, stil, yoğunluk vb.

Kompozisyonsallık, görüntüleri temsili faktörlere ayıran ve daha sonra bu faktörlere göre koşullandırıldığında girdiyi yeniden oluşturmak için bir yayılma modeli kullanan bu modelin arkasındaki ana fikirdir. Görüntülerin ayrıştırıldığı öğeler şunlardır: başlık (metin), anlam bilgisi ve stil (CLIP yerleştirme yoluyla), renk (histogram istatistikleri yoluyla), çizim (kenar algılama modeli aracılığıyla), örnekler (yani nesne bölümlendirmesi), derinlik haritası (üzerinden) önceden eğitilmiş bir monoküler model), yoğunluk (gri tonlamalı görüntü aracılığıyla) ve maskeleme. Bu nedenle, görüntü üretimi tüm bu niteliklere göre koşullandırılabilir ve yeni bir koşullandırma girişi olarak önceki çıktıyla yinelemeli olarak iyileştirilebilir.

Bu çalışma, görüntüleme teknolojisinin insan yaratıcılığına daha fazla kontrol vermek ve yaratıcı süreci değiştirmek yerine onu geliştirmek için nasıl tasarlanabileceğini gösteriyor.

❓ Neden → Uzman sistemlerin dönüşü…? Bu makaleyi seviyorum çünkü uçtan uca ham bilgi işlem devriminden uzaklaşıyor. Bu benim ayı olduğum anlamına gelmez. acı dersama yine de canlandırıcı.

Anahtar fikirler → Tam olarak öyle değil, ancak bu makale çok modlu dil modellemeye oldukça yapılandırılmış bir yaklaşım getiriyor ve bazı ilgi çekici faydalar sunuyor:

  • Makale, çok modlu dil modellemeye yönelik yapılandırılmış bir yaklaşım benimsiyor ve diğer modellerle karşılaştırıldığında bir ila iki kat daha az veriyle karşılaştırılabilir bir performans elde ediyor.
  • “Uzmanlar”, bir görüntüyü işlerken derinlik haritaları veya nesne bölümlemeleri gibi bilgiler üreten donmuş bilgisayarlı görme modellerini ifade eder. Yalnızca adaptörler eğitilerek tasarımın diğer kara kutu görüş modelleriyle takıp çalıştırılmasına olanak sağlanır.
  • En büyük Prismer modeli, yalnızca 360M’si eğitilebilir olan 1,6B parametrelere sahiptir; bu, büyük modellere göre daha düşük performans ancak daha yüksek verimlilik sağlar.
  • Prismer, gürültülü uzmanlara karşı güçlü bir dayanıklılık gösterir ve daha fazla uzman/daha kaliteli uzmanlarla birlikte gelişerek, geniş ölçekte çok modlu öğrenme için pratikliğini önerir.

Genel olarak makale, performansı düşürmeden birçok modalite uzmanını güvenli bir şekilde dahil etmek için etkili bir teknik sunmakta ve modlar arası öğrenmeyi azaltmaya yönelik pratik bir yaklaşıma olanak tanımaktadır. Çok modlu dil modelleri üzerine diğer çalışmalar için bkz.İhtiyacınız olan tek şey dil değil: Algıyı dil modelleriyle uyumlu hale getirmek”, bir vizyon dili modelini talimat öğrenimine ayarlayan Microsoft’tan.

❓ Neden → Dil modellerini bellek, akıl yürütme ve araçlarla geliştirmek için önerilen yaklaşımların patlamasına tanık olduk. Bu makale, bu alandaki en son gelişmelerden haberdar olmak için tek adresinizdir.

Anahtar fikirler → LM’ler, konu sağlam akıl yürütme ve kesinlik olduğunda sınırlamalarıyla ünlüdür; bu nedenle, yeteneklerini geliştiren hesaplamalı cihazlarla onları güçlendirecek aktif bir araştırma alanı vardır. Örneğin, hesap makineleri kullanan LM’ler oluşturulan kodu derleyip çalıştırır veya veri toplamak için rastgele API’leri çağırır. Uzay yeni başladı.

Kurtarma Artırılmış Üretim (RAG) en yaygın durumlardan biridir (bunu kullanıyoruz) platformumuzdave hem Bing hem de Google bunun üzerinde aktif olarak çalışıyor). Örneğin, kurtarma artırılmış LM’yi (RAG) ve bunların nasıl karşılaştırıldığını analiz eden 4 makale:

Anketteki ilginç noktalardan biri, LM’leri araçlarla ve açık bir yapıyla zenginleştirmenin onları daha yorumlanabilir hale getirmesidir; çünkü çıktıları açıkça modüllerine atfedilebilir ve bu da onları insanlar tarafından daha kullanışlı hale getirir.

❓ Neden → Adem çok uzun zamandır kraldı. Bundan kurtulmamızın bir yolu var mı? Muhtemelen hayır, ama bu yine de faydalı olabilir!

Anahtar fikirler → Yönteme Lion (gelişmiş işaret anı) adı verilir ve bunun özü, bir ağın ağırlıkları, gradyanları ve öğrenme oranları göz önüne alındığında güncellenmiş ağırlık değerleri üreten bir eğitici işlevini öğrenmek için sembolik arama programlarını uygulayabilmenizdir.

Bu çalışma, burada öğrenilen optimize edicinin gradyan iniş yoluyla değil, sembolik keşif yoluyla öğrenildiği şeklindeki bükülme ile öğrenilmiş optimize edicilerin alanına katkıda bulunmaktadır. Bu yöntem, makalede gösterilen deneylerde çok iyi çalışıyor ve Adam gibi yaygın vanilya optimize edicilerle karşılaştırıldığında yaklaşık 2 kat eğitim hızlandırması sağlıyor.

Ancak bu belgelerde olağan olduğu gibi, optimize edicilerin en önemli özelliğini değerlendirmek çok zordur: uygunluk. Adam, her zaman daha iyi ve daha verimli çalıştığı için değil, çoğu zaman yeterince iyi çalıştığı ve ilgili darboğazların başka yerlerde olduğu için optimize edicinin tercihidir. Bununla birlikte, öğrenilmiş optimize edicilerin havalanıp 100 milyar ölçekli dil modelleri gibi yeni kararsız ve zorlayıcı öğrenme senaryolarına dönüşmesini görmek isterim.

❓ Neden → Eğlenceli bir şey! Mario Bros. dünyaları oluşturmak için GPT-2’yi kullanma.

Anahtar fikirler → Neredeyse hepsi bu. Yazarlar, Mario Bros’un unsurlarını karakterlere dönüştürerek ve daha sonra metin istemlerine göre koşullandırılan bir dil modelini eğiterek Prosedürel İçerik Üretimi (PCG, oyunlar için algoritmik olarak içerik üretme fikri) gerçekleştiriyorlar.

MarioGPT’yi mevcut seviyeleri ortaya çıkaran, değiştiren ve bunları tutmak veya atmak için seçim kriterleri uygulayan yeni bir arama döngüsüne entegre ederek evrimsel hesaplamayla oluşturulan seviyelerin çeşitliliğini daha da artırırlar.

Ortaya çıkan seviyeler %88 oranında oynanabilir ve kısa mesaj yoluyla yüksek düzeyde kontrol edilebilirlik gösterir. Bu, potansiyel olarak daha etkileyici ve kişiselleştirilmiş oyun deneyimlerine yönelik heyecan verici bir başlangıç!

Diğer ilginç konular: