Google Yapay Zeka, İnsan Derecelendirmeli Yeni Bir Cümleden Cümleye Bağlamsal Semantik Eşleştirme Veri Kümesi olan Patent Cümle Benzerliği Veri Kümesini Yayınladı

Gönderiyi okuyorsunuz: Google Yapay Zeka, İnsanlar Tarafından Derecelendirilen Yeni Bir Cümleden Cümleye Bağlamsal Semantik Eşleştirme Veri Kümesi olan Patent Cümle Benzerliği Veri Kümesini Yayınladı

Konuşma bölümünü etiketleme, soru yanıtlama, adlandırılmış varlık tanıma, konuşma tanıma, metinden konuşmaya, dil modelleme, çeviri, konuşmayı metne dönüştürme ve konu modelleme, geniş kapsamın kapsamına giren çok sayıda görevden sadece birkaçıdır. NLP kategorisi. Konu modelleme, bir metin koleksiyonunun içeriğini dersin perspektifinden inceleme sürecidir.

Patent başvurularındaki tipik dil, günlük konuşmadan çok farklı anlamlara sahip olabilen, bağlama duyarlı ifadeler içeren, yasal ve son derece teknik bir dildir. 100 milyondan fazla patent belgesinin bulunduğu külliyatı araştırmak zaman alıcı olabilir ve geniş ve standart dışı terminolojinin kullanılması nedeniyle çok sayıda eksik sonuca yol açabilir. Patent külliyatının sürekli genişlemesi nedeniyle bu alana yönelik daha faydalı NLP modellerinin oluşturulmasına ihtiyaç duyulmaktadır.

Patent Cümle Benzerliği veri kümesi, insan tarafından derecelendirilen yeni bir anlamsal ifadeden cümleye eşleşen bağlamsal veri kümesidir. Tipik olarak diğer kıyaslama veri setlerinde yer alan benzerlik puanlarına ek olarak eş anlamlılar, zıt anlamlılar, alt anlamlılar, holonymler, meronymler ve alanla ilgili gibi WordNet’e benzer ayrıntılı puanlama sınıfları sağlıyoruz. Ön bulgulara göre, bu yeni veri seti üzerinde ince ayar yapılan modeller, önceden eğitilmiş geleneksel modellerden daha iyi performans gösteriyor.

Patent Cümle Benzerliği Veri Kümesi

Araştırmacı, en yeni nesil son teknoloji modellerin eğitilmesine yardımcı olmak için çok sayıda örnek içeren Patent Cümle Benzerliği veri kümesini geliştirdi. Birçok NLP modelinin, benzer anahtar kelimelere sahip, birbirinden kopuk ifadeler içeren verilerle sorunları vardır. İlgisiz ifadelerle eşleşen pek çok çekişmeli anahtar kelime eşleşmesi vakası, patent cümlesi benzerliği veri kümesinde bulunabilir. Veri seti, 973 benzersiz bağlantıya sahip 48.548 öğeden oluşmakta ve eğitim (%75) ve doğrulama (%5) gruplarına bölünmüştür.

Veri kümesini ayarlayın

Patent cümlesi benzerliği verilerini oluşturmak için öncelikle Google’ın patent külliyatındaki 140 milyon patent belgesini inceliyoruz ve çoğu isim cümlesi olan anahtar İngilizce ifadeleri otomatik olarak çıkarıyoruz (ör. “sütyen”, “kaldırma tertibatı” ve “mürekkep baskısı”, diğerleri arasında) ve yararlı ifadeler. Daha sonra, filtrelendikten sonra saklanan ve en az 100 patentte kalan, çapa cümleleri olarak adlandırdığımız filtrelenmiş ifadelerden yaklaşık 1000’i rastgele seçtik. Her bir bağlantı ifadesi için karşılık gelen patentlerin yanı sıra tüm CPC sınıflandırmalarını da bulduk. Belirli bağlantı ifadesine ilişkin bağlam TBM sınıfları, eşleşen dört adede kadar CPC sınıfından oluşan bir dizi arasından rastgele seçilir.

Hedef ifadeleri önceden oluşturmak için iki teknik kullanıyoruz: bulanık eşleştirme ve maskeli dil modeli (MLM). Kısmi eşleşmeler yapmak için tüm derlemden bağlantı cümlesiyle yalnızca kısmen eşleşen cümleleri (örneğin, “azaltma”, “gürültü azaltma”, “oluşum materyali” ve “eğitim materyali”) rastgele seçiyoruz. MLM yapmak için, patentlerden belirli bir bağlantı cümlesi içeren ifadeleri seçer, bunları maskeleriz ve ardından maskelenen metnin adaylarını tahmin etmek için Patent-BERT modelini kullanırız. Daha sonra, küçük harfler, noktalama işaretlerinin kaldırılması ve bazı durak sözcüklerin (“ve”, “veya” ve “söylendi” gibi) kaldırılması da dahil olmak üzere tüm cümleler temizlenir ve bunlar profesyonel değerlendiricilere değerlendirilmek üzere gönderilmez. Her bir cümle çifti teknoloji alanında uzman iki değerlendirici tarafından ayrı ayrı değerlendirilir.

Ek olarak, her değerlendirici birden fazla derecelendirmeye sahip tamamen yeni hedef ifadeler oluşturur. Özellikle, öğrenciler orijinal dayanakla yalnızca kısmen eşleşen bazı alakasız, düşük benzerlikli hedefler ve bazı yüksek benzerlikli hedefler bulmalıdır. Not verenler bu noktada notlarını tartışmak ve final notlarını belirlemek için toplanırlar.

Veri seti değerlendirmesi

ABD Patent Cümlesi Eşleştirme Kaggle yarışması, performansını değerlendirmek için Patent Cümlesi Benzerliği veri kümesini kullanır. Oldukça popüler olduğu için yarışmaya dünyanın her yerinden yaklaşık 2.000 yarışmacı katıldı. En iyi performansı gösteren ekipler, BERT varyasyon seti modelleri ve istemleri de dahil olmak üzere çeşitli stratejileri başarıyla uyguladı (daha fazla ayrıntı için tüm tartışmaya bakın). Yarışmadan elde edilen en iyi sonuçlar, çalışmamızdan hazırlanan çeşitli temel bilgilerle birlikte aşağıdaki tabloda gösterilmektedir. Çoklu benzerlik derecelendirmeleri arasında ayrım yapmak amacıyla sonraki modellerde, tahmin edilen ve gerçek değerler arasındaki doğrusal korelasyonu hesaplamak amacıyla Pearson korelasyon metriği kullanıldı.

Çalışmadaki taban çizgileri sıfır atışlıdır çünkü ticari modelleri yeni veri seti için daha fazla ayarlamadan kullanırlar (bu modelleri bağlantı ve hedef ifadelerini ayrı ayrı dahil etmek ve aralarındaki kosinüs benzerliğini hesaplamak için kullanırız). Kaggle yarışmasının sonuçları, eğitim verilerimizi kullanarak mevcut NLP algoritmalarından önemli ölçüde daha iyi performans gösterebileceğinizi gösteriyor. Bir değerlendiricinin puanlarını iki değerlendiricinin puanlarının toplamı ile karşılaştırarak, bu görevdeki insan performansını da yaklaşık olarak tahmin ettik. Bulgular, bunun insan uzmanlar için bile çok basit bir iş olmadığını gösteriyor.

Model Eğitimi için Pearson Korelasyonu

Modeli	Eğitim	Pearson korelasyonu
kelime2zamanı	sıfır atış	0,44
Patent-BERT	sıfır atış	0,53
Dua-BERT	sıfır atış	0.60
Kaggle 1. sıradaki tekli	ayarlandı	0.87
Kaggle 1. sıraya yerleşti	ayarlandı	0,88
İnsan		0,93

Sıfır atış (sıfır ayar) kullanan iyi bilinen modellerin performansı, Kaggle yarışmasının bir parçası olarak Patent Cümle Benzerliği veri kümesini kullanan değiştirilmiş modeller ve benzersiz insan performansı.

Son düşünceler ve gelecekteki çalışmalar

Patent külliyatı, daha zorlu makine öğrenimi kriterleri geliştirmek için kullanılabilir. Örneğin, C4 metin veri kümesindeki kapsamlı patent başvuruları T5 modelini eğitmek için kullanılır. BigBird ve LongT5 modelleri de BIGPATENT veri setini kullanıyor.

Bu makale Marktechpost personeli tarafından ‘araştırma çalışmasına dayalı olarak bir araştırma özeti makalesi olarak yazılmıştır’Patent Cümleden Cümleye Semantik Eşleştirme Veri Kümesi‘. Bu araştırmanın tüm kredisi bu projenin araştırmacılarına aittir. Görüntüle kağıt, veri seti Ve referans makalesi.

Lütfen katılmayı unutmayın ML alt dizimiz

Yüzlerce Harika Yapay Zeka Aracını bulmak için https://aitoolsclub.com adresini ziyaret edin

Size şunları öneriyoruz: