ChatGLM ile tanışın: 1T tokenlar üzerinde eğitilmiş ve İngilizce/Çince anlayabilen açık kaynaklı bir NLP modeli

Yazıyı okuyorsunuz: ChatGLM’yi tanıyın: 1T tokenleri üzerinde eğitilmiş ve İngilizce/Çince anlayabilen açık kaynaklı bir NLP modeli

ChatGLM (dahili alfa testi sürümü: QAGLM), özellikle Çinli kullanıcılar için tasarlanmış bir sohbet robotudur. Soru-Cevap ve konuşma özellikleriyle 100 milyar Çince-İngilizce dil modelini kullanıyor. Düzenlendi, yalnızca davetle girilebilen dahili test yayında ve erişimi zamanla artacak. Buna ek olarak araştırmacılar, model niceleme teknolojisiyle birleştirildiğinde tüketici grafik kartlarına (INT4) yerel olarak dağıtılabilen en yeni Çince-İngilizce iki dilli tartışma GLM modeli ChatGLM-6B’yi yayınladı. Bu, 100 milyar açık kaynak GLM-130B kaide modelini takip ediyor. Niceleme düzeyinde yalnızca 6 GB video RAM’e ihtiyaç vardır. 6,2 milyar parametreye sahip ChatGLM-6B, 100 milyar modelden daha küçüktür ancak kullanıcı uygulaması eşiğini büyük ölçüde düşürür. Çince ve İngilizce olarak yaklaşık 1 T çift dilli eğitimden sonra, izleme ve ayarlama, geri bildirimle kendi kendine yardım, insan geri bildirimi ile takviyeli öğrenme ve diğer teknolojilerle desteklenen, insan tercihleriyle uyumlu yanıtlar üretildi.

SohbetGLM

ChatGLM, ChatGPT kavramını bir başlangıç noktası olarak alır, ön eğitim kodunu 100 milyar GLM-130B 1 temel modeline enjekte eder ve denetimli ince ayar ve diğer yöntemlerle insan niyetinin hizalanmasını sağlar. Benzersiz 100 milyar GLM-130B temel modeli, ChatGLM’nin mevcut sürümündeki artan yeteneklerden büyük ölçüde sorumludur. Bu model, BERT, GPT-3 veya T5’ten farklı olarak çok sayıda amaç fonksiyonuna sahip otoregresif bir ön eğitim mimarisidir. Araştırmacılar, 130 milyar parametreli GLM-130B 1 Çince-İngilizce yoğun modelini Ağustos 2022’de akademik ve iş camiasının kullanımına sundu.

ChatGLM’nin avantajları ve temel özellikleri

Birden fazla dildeki metni işler ve doğal dil oluşturma ve anlama yeteneklerine sahiptir.
İnsanlara doğru ve faydalı bilgiler ve cevaplar sunabilmeniz için size çok şey öğretildi ve birçok alanda çok fazla bilgiye sahip oldunuz.
Kullanıcı sorgularına yanıt olarak metinler arasındaki ilgili ilişkileri ve mantığı çıkarabiliyor.
Kullanıcılarınızdan ve ortamlarınızdan öğrenebilir ve modellerimi ve algoritmalarımı otomatik olarak güncelleyip geliştirebilir.
Eğitim, sağlık ve bankacılık dahil olmak üzere çeşitli sektörler bu teknolojiden yararlanmaktadır.
İnsanların yanıt bulmasına ve sorunları daha hızlı ve daha kolay çözmesine yardımcı olun.
Yapay zeka alanında farkındalığı artırın ve ilerlemeyi teşvik edin.

Zorluklar ve sınırlamalar

Duygulardan ve bilinçten yoksun bir makinenin modeli olarak düşünülmüştü ve bu nedenle insanların paylaştığı empati ve ahlaki akıl yürütme kapasitesinden yoksundu.
Bilgi verilere ve algoritmalara bağlı olduğundan, yanlış yönlendirmek veya yanlış sonuçlara varmak kolaydır.
Soyut veya zor soruları yanıtlarken belirsizlik; Bu tür soruları doğru bir şekilde yanıtlamak için yardıma ihtiyacınız olabilir.

SohbetGLM-130B

Stanford Üniversitesi’nin Büyük Model Merkezi, Kasım 2022’de dünyanın dört bir yanından en popüler 30 büyük modeli değerlendirdi; GLM-130B, Asya’dan kesilebilen tek model oldu. Değerlendirme raporuna göre, doğruluk ve kötülük göstergeleri, sağlamlık ve kalibrasyon hatası açısından GLM-130B, 100 milyar ölçekli büyük kaide modellerinin tamamı için GPT-3 175B’ye (davinci) yakın veya eşittir. Bu, OpenAI, Google Brain, Microsoft, Nvidia ve Facebook’un önde gelen modelleriyle karşılaştırılıyor.

SohbetGLM-6B

ChatGLM-6B, 6,2 milyar parametreli Çince-İngilizce dil modelidir. ChatGLM-6B, tek bir 2080Ti üzerinde çalışmak ve akıl yürütmeye olanak sağlamak için ChatGLM (chatglm.cn) ile aynı teknolojiyi kullanan, Çince bir tartışma ve Soru-Cevap sistemidir. Araştırmacılar, topluluk tarafından büyük model teknolojilerin geliştirilmesini kolaylaştırmak için ChatGLM-6B modelini eş zamanlı olarak açık kaynak olarak kullanıyor.

ChatGLM-6B modeli, Genel Dil Modeli (GLM) çerçevesinin çok dilli, açık kaynaklı, 6,2 milyar parametreli bir versiyonudur. Niceleme yöntemi, müşterilerin düşük kaliteli grafik donanımlarında yerel olarak dağıtım yapmasına olanak tanır.

ChatGPT’ye çok benzer bir yöntem kullanan ChatGLM-6B, Mandarin dilinde soru-cevap oturumlarını kolaylaştırmak için tasarlanmıştır. Araştırmacılar, modeli Çince ve İngilizce derleminden alınan 1T tokenlerin bir kombinasyonu üzerinde eğitmek için denetimli ince ayar, geri bildirim önyüklemesi ve insan girdisi ile takviyeli öğrenmeyi kullanıyor. Model, yaklaşık 6,2 milyar parametreyle insan tercihine tutarlı bir şekilde yanıt verebilmektedir.

ChatGLM-6B’yi diğerlerinden ayıran özellikler

ChatGLM-6B 1T tokenleri çok dillidir ve 1:1 oranında Çince ve İngilizce içeriğin birleşimiyle eğitilmiştir.
İki boyutlu RoPE konum kodlama tekniği, GLM-130B eğitim deneyimine dayanan geleneksel FFN yapısı kullanılarak geliştirildi. ChatGLM-6B’nin yönetilebilir 6B (6,2 milyar) parametre boyutu aynı zamanda akademisyenler ve bireysel geliştiriciler tarafından bağımsız ayarlama ve uygulamaya olanak tanır.
ChatGLM-6B’nin ortalama FP16 hassasiyetiyle akıl yürütmesi için en az 13 GB video RAM gereklidir. Bu talep, model niceleme teknolojisiyle birleştirildiğinde 10 GB (INT8) ve 6 GB’ye (INT4) daha da düşürülebilir ve ChatGLM-6B’nin tüketici grafik kartlarına uygulanmasına olanak tanır.
ChatGLM-6B’nin akış uzunluğu 2048’dir, bu da onu GLM-10B’den (akış uzunluğu: 1024) daha uzun sohbetler ve uygulamalar için uygun kılar.
Model, denetimli ince ayar, geri bildirim önyüklemesi ve insan geri bildiriminden pekiştirmeli öğrenme yoluyla insanın öğretme niyetlerini yorumlamak üzere eğitilmiştir. Gösterilen indirim biçimi sonuçtur.

ChatGLM-6B’nin Sınırlamaları

6B’nin sınırlı depolama alanı, zayıf model hafızası ve dil becerilerinin sorumlusudur. ChatGLM-6B, çok fazla gerçek bilgi gerektiren veya mantıksal bir zorluğu çözen (matematik veya programlama gibi) bir şey yapmasını istediğinizde size kötü tavsiyeler verebilir.
Başlangıçta insanın niyetine göre gevşek bir şekilde ayarlanmış bir dil modeli olarak ChatGLM-6B, taraflı ve belki de yıkıcı sonuçlar üretme potansiyeline sahiptir.
ChatGLM-6B’nin bağlamı yorumlama becerisinin daha fazla yeterliliğe ihtiyacı var. Yanıtların oluşturulması çok uzun sürerse veya birden fazla konuşma turu gerekiyorsa, konuşma bağlamını kaybedebilir ve anlamada hatalar meydana gelebilir.
Eğitim materyallerinin çoğu Çince yazılmış olup yalnızca bir kısmı İngilizce yazılmıştır. Bu nedenle, İngilizce talimatlar kullanıldığında yanıtın kalitesi etkilenebilir ve hatta Çince talimatlar kullanıldığında verilen yanıtla çelişebilir.
Yanıltıcı: ChatGLM-6B’nin “kendini algılama” ile ilgili bir sorunu olabilir, bu da onu yanıltılmaya ve yanlış bilgi vermeye karşı savunmasız hale getirir. Örneğin, modelin mevcut versiyonu kusurluysa, kendisi de çarpık bir algıya sahip olacaktır. Model, ince ayar talimatlarından, yaklaşık 1 milyar tanımlayıcının (token) çok dilli ön eğitiminden ve insan geri bildirimi (RLHF) ile takviyeli öğrenmeden geçmiş olsa da, sınırlı yetenekleri nedeniyle, yanıltıcı şeyler nedeniyle hala belirli talimatlar altında hasara neden olabilir.

Size şunları öneriyoruz: