İnternette İstediğiniz Gibi Çevrimiçi Para Kazanma!

Belgeler için Makine Öğrenimi: Yapay Zekaya Doğru

Şu yazıyı okuyorsunuz: Belgeler için Makine Öğrenimi: Yapay Zekaya Doğru

İlk olarak Yapay Zekaya Doğru’da yayınlandı.

Belgeler hayati bilgilerin temel kaynağını taşır. Şirketlerin yapılandırılmış ve yapılandırılmamış bilgilerinin çoğu Belgeler halinde mevcuttur. Bunlar yerel PDF belgeleri ve banka faturaları, yasal belgeler ve doğrulama kimlik kartları gibi taranmış PDF belgeleri biçiminde mevcuttur. Zamanla bu belgelerdeki bilgiler, Optik Karakter Tanıma (OCR), Bilgisayarlı Görme (CV) ve Doğal Dil İşleme (NLP) gibi tekniklerin kullanıldığı birçok uygulamada kullanılır.

Document AI, çeşitli görevlere yönelik belgeleri analiz etmek ve anlamak için uygulanan yapay zeka tekniklerini ifade eder. Dikkate değer görevler arasında form/fatura çıkarma, optik karakter tanıma, tablo algılama ve tablo çıkarma yer alır.

Bu yazıda göreceğiz

  • Document AI’da yaygın olan ana görevler ve veri kümeleri.
  • Son araştırma çalışmaları, önceden eğitilmiş modeller ve her görev için mevcut teknikler gibi metodolojiler tartışılmaktadır.
  • Bu alandaki güncel konular.

Görevler ve veri kümeleri

Birçok iş kullanım senaryosunu çözmek için Document AI’da farklı görev türleri yaygındır. Çoğu durumda, bir kullanım senaryosunu çözmek için bazı görevler birlikte kullanılır. Örneğin, bir fatura çıkarma görevi için, metni pdf’ten çıkarmak için bir OCR sisteminin ve varlıkları tanımak için bir Görsel Bilgi Çıkarma sisteminin kullanılması yaygındır. Bu bölümde her görevi ve o görev için kullanılan ortak veri setini inceleyeceğiz.

Optik karakter tanıma

Optik Karakter Tanıma (OCR), metni tanıdığımız ve çıkardığımız metinleri ifade eder. Bu, Document AI işlem hattında önemli bir görevdir. Metin farklı formatlarda olabileceğinden ve taranan belgenin kalitesi düşük olabileceğinden ve metnin el yazısı da kötü formatlarda olabileceğinden OCR aynı zamanda en zor görevlerden biridir. Bu görev için pek çok kıyaslama ve veri seti mevcuttur; Ünlü MNIST veri seti bir tür OCR veri setidir. Diğer kriterler şunları içerir: IAM el yazısı el yazısıyla yazılmış belgelerin resimlerinden oluşan ve İÇDAR 2003sahne anlama görüntülerinden oluşur.

Doküman Tasarım Analizi

Bu görev, belirlenen paragraflar, tablolar ve grafikler gibi belgenin yapısını ve düzenini tanımlamayı ifade eder. İÇDAR 2013 kelime düzeyindeki ek açıklamaların metin resimlerini içeren bu görev için popüler ölçütlerden biridir; başka bir veri seti ise PubLayNet metin, tablo, şekil ve diğer benzer kategoriler gibi yapı düzeyinde açıklamalı belge görüntülerinden oluşur.

Görsel bilgi çıkarma

Belgelerden önemli bilgilerin çıkarılması görevini ifade eder. Bu görevde, tüm metnin çıkarıldığı OCR’den farklı olarak yalnızca anahtar varlıklar çıkarılır, ancak burada yalnızca anahtar varlıkların metni ve bunların uzamsal bilgileri çıkarılır. Fatura çıkarma, form çıkarma görsel bilgi çıkarma görevlerinden bazılarıdır. Referans noktaları şunları içerir: FONSDAnlamsal varlıklar, Adlandırılmış Varlıklar ve Uzamsal Bilgiler hakkında bilgi içeren açıklamalı formlardan oluşur. TEL her metin bölgesinde mekansal düzeyde bilgi içeren açıklamalı makbuz görüntülerinden oluşan başka bir kıyaslamadır.

Görsel Soru Cevap Dokümanı

Bu görev, belgede sağlanan metne dayalı olarak soruları yanıtlamayı ifade eder. Bu görev, belge görüntülerinin karmaşık yapısından dolayı diğer görsel soru yanıtlama görevlerinden farklıdır. Tipik olarak önce OCR modeliyle metin çıkarılır ve ardından modelleme gerçekleştirilir. DocVQA bu görevi ortaya koyan ilk veri setidir; İlki tek bir belge görseli ve bir soru içeren, ikincisi ise bir dizi belge görseli ve tek bir sorudan oluşan iki alt göreve sahiptir.

Belge Görüntüsü Sınıflandırması

Bu görevde belge görüntüleri faturalar, yasal belgeler, özgeçmişler ve daha pek çok belge türüne göre sınıflandırılır. RVL-CLIP bu görev için kullanılan popüler bir kıyaslamadır; notlar, e-postalar, bilimsel raporlar ve dosya klasörleri gibi on altı kategorideki görüntülerden oluşur.

Tablo algılama ve tablo çıkarma

Tablolar herhangi bir belgede önemli bir bilgi kaynağıdır ve çoğunlukla sayısal bilgilerden oluşur. Bu görevde tablonun belgede nerede bulunduğunu tanımaya ve içerdiği bilgileri çıkarmaya odaklanıyoruz. Bu görevin ayrıca tablodaki satırların, sütunların ve hücrelerin tanımlandığı Tablo Yapısı Tanıma gibi bazı alt görevleri ve anahtar değerin çıkarıldığı Tablo İşlevsel Analizi gibi başka bir alt görevi de vardır. PubTables-1M tablo algılama, tablo yapısını tanıma ve tablo işlevsel analizi görevleri için 948K açıklamalı PDF’lerden oluşan yakın zamanda yayınlanmış bir veri kümesidir.

Metodolojiler

Belge görselleri bazı tablolar, sayısal bilgiler ve metinler içermesi nedeniyle normal görsellerden farklıdır. Bu metinlerin konumu da yukarıda bahsedilen bazı görevler için gereklidir. Derin öğrenmenin ortaya çıkmasından önce, yukarıdaki görevlerin çoğu, çeşitli görüntü işleme algoritmaları ve OCR teknikleriyle kural tabanlı sistemler ve buluşsal yöntemler aracılığıyla çözülüyordu. Bu bölümde, bu görevleri çözmeye yönelik bazı yöntemlerin yanı sıra bu alandaki son araştırma ilerlemelerine genel bir bakış sunacağız.

Derin Öğrenmeye dayalı teknikler

Derin öğrenmenin ortaya çıkmasından ve CNN’lerin yükselişinden sonra bu görevler için birçok bilgisayarlı görme yöntemi kullanıldı. Belge düzeni analizi ve tablo tespiti gibi görevler tamamen RCNN, Faster-RCNN ve YOLO gibi nesne tespit modellerinin kullanıldığı nesne tespit görevleri olarak değerlendirilmektedir.

Belge görüntü sınıflandırması için doğal görüntü sınıflandırmasında kullanılan ortak yaklaşımlar kullanılabilir. gibi bazı yaklaşımlar Yunus ve diğerleri, belgeleri sınıflandırmak için metinsel ve görsel içerikten yararlanmışlardır.

Görsel belgelerin çıkarılması ve belgelerden görsel soruların yanıtlanması gibi metnin de önemli bir bilgi kaynağı olduğu görevler. Temel yaklaşım, kelime etiketlerini bulmak için bir nesne algılama modeli, adlandırılmış varlıkları çıkarmak için bir NER modeli ve metni çıkarmak için bir OCR modelinden oluşan bir işlem hattı kullanmaktır. Uçtan uca modelin kullanılabileceği başka yaklaşımlar da vardır. Palm-et-al gerekli varlıkları çıkaran MLP bloklarıyla bir CNN oluşturan uçtan uca bir ağ kullandı.

Her ne kadar bu modeller Document AI görevlerinde daha iyi sonuçlar elde edebilse de bu modeller genellikle büyük miktarda etiketli veri gerektirir ancak Document Intelligence sorunları için insan açıklamaları yoğun ve pahalı bir iştir. Ancak açıklamalı belgelerin yaygın olması nedeniyle, açıklamalı olmayan belgelerden de yararlanabiliyoruz. Transformer mimarilerinin NLP, Vision ve diğer alanlardaki transfer öğrenimindeki başarısının ardından Document AI’da da popülaritesi arttı.

Document AI’nin en iyi önceden eğitilmiş modellerinden bazılarına göz atalım. Bu önceden eğitilmiş modeller, aşağı yönlü görevlerde ince ayar yapmak için Huggingface Hub’da halka açıktır.

TasarımLM

LayoutLM, belgenin metin düzeni ve görsel bilgilerinin ortaklaşa ön eğitimi tekniğini araştıran ilk modeldir. Metin omurgası için önceden eğitilmiş BERT modeli, varlık konumlarını temsil eden 2 boyutlu konum yerleştirme ve Faster-RCNN’den çıkarılan bir görüntü yerleştirme kullanıldı. Model, geniş bir açıklamasız belge kümesi üzerinde maskeli görsel dil modelleme görevi ve çok etiketli belge görüntüsü sınıflandırma görevi konusunda önceden eğitildi. Yukarıdan aşağıya verimliliği kontrol etmek için modelde, bir form anlama görevi olan FUNSD, SROIE: makbuz anlama görevi ve RVL-CLIP: belge görüntüsü sınıflandırma görevi üzerinde ince ayarlar yapıldı. Model, önceki tekniklere ve SOTA modellerine göre daha iyi sonuçlar elde etti. Daha sonra LayoutLM geliştirildi ve LayoutLMV2 ve LayoutLMV3 piyasaya sürüldü. LayoutLMV3, metin veya görüntü yerleştirmelerini çıkarmak için herhangi bir metin veya görüntü omurgasına güvenmez; bu da birçok parametreden önemli ölçüde tasarruf sağlar. Üç farklı ön eğitim tekniğine sahip birleşik çok modlu bir transformatör mimarisi kullanır; Ayrıca makbuzları anlama, formları anlama, belge resimlerini sınıflandırma ve görsel belge sorularını yanıtlama gibi birden fazla görevde daha iyi sonuçlar elde etti.

TROCR

TrOCR, optik karakter tanıma için uçtan uca transformatör tabanlı mimariyi kullanan ilk OCR modelidir. Önceki yaklaşımlar, görüntü anlama için CNN’den ve karakter oluşturma için RNN’den yararlanıyordu. Model, kodlayıcının önceden eğitilmiş bir Vision Transformer kullandığı ve kod çözücünün, herhangi bir CNN kullanmadığından modelin üzerinde eğittiği etiketlenmemiş verilerden yararlanan önceden eğitilmiş bir BERT kullandığı bir Transformer mimarisini kullanır; TrOCR modeli, birçok belge türü ve sahne görüntüsü üzerinde de karakter tanıma açısından daha iyi sonuçlar kaydeder.

masa transformatörü

Tablolar, yapılandırılmış bir formatta mevcut olan birçok temel bilgiyi içerir; Satır, sütun ve hücrelerin tutarlı yapısı nedeniyle hücrelerin içindeki değerlerin tespit edilmesi ve çıkarılması zordur. Belgede sunulan masaüstü transformatör, PubTables-1M: Yapılandırılmamış belgelerden tabloların tamamen çıkarılmasına doğru Görev için DETR nesne algılama tabanlı transformatör mimarisi uygulandığında performans durumuna ulaşıldı. Önceki çözümler, değerleri bulmak için bir dizi ön veya işlem sonrası adım içeren CNN tabanlı modelleri kullanıyordu.

Çözüm

Bu nedenle, Document AI’da önceden eğitilmiş modellerin son zamanlarda kullanıma sunulmasıyla birlikte, belgelerle ilgili birçok görev, belgelerdeki zengin bilgiler kullanılarak çözülebilir. Bu alandaki yaygın sorunlardan bazıları veri setlerinin kamu kullanımına açık olması; Belge özel bilgiler içerdiğinden veri kümelerinin çoğu yalnızca özel kullanım durumları için kullanılır. Ancak son yıllarda bu alandaki araştırmalar hızla artmıştır.

Referanslar:


Belgeler için Makine Öğrenimi ilk olarak Medium’da Towards AI’da yayınlandı; burada insanlar bu hikayeyi vurgulayarak ve yanıtlayarak sohbeti sürdürüyorlar.

Towards AI aracılığıyla yayınlandı

Diğer ilginç konular: