EchoSpeech: sessiz ses tanıma teknolojisiyle iletişimde devrim yaratıyor

Şu yazıyı okuyorsunuz: EchoSpeech: sessiz ses tanıma teknolojisiyle iletişimde devrim yaratıyor

Cornell Üniversitesi’ndeki araştırmacılar, dudak ve ağız hareketlerine dayalı olarak 31’e kadar sesli olmayan komutu sürekli olarak tanımak için akustik algılama ve yapay zekayı kullanan sessiz bir konuşma tanıma arayüzü olan EchoSpeech’i geliştirdi. Bu düşük güçlü, taşınabilir arayüz, akıllı telefonda çalıştırılabilir ve komut tanıma için yalnızca birkaç dakikalık kullanıcı eğitim verisine ihtiyaç duyar.

Bilgi bilimleri alanında doktora öğrencisi olan Ruidong Zhang, şu kitabın baş yazarıdır: “EchoSpeech: Akustik algılama teknolojisine sahip, dikkati en az düzeyde dağıtan gözlüklerde sürekli, sessiz ses tanıma”, bu ay Almanya’nın Hamburg kentinde düzenlenen Bilgisayar Makineleri Birliği Bilgi İşlem Sistemlerinde İnsan Faktörleri Konferansı’nda (CHI) sunulacak.

“Sesi seslendiremeyen insanlar için bu sessiz konuşma teknolojisi, konuşma sentezleyici için mükemmel bir giriş olabilir. Bu, hastaların seslerini geri verebilir” diyen Zhang, teknolojinin daha fazla gelişmeyle birlikte potansiyel uygulamalarına dikkat çekti.

Gerçek dünyadaki uygulamalar ve gizlilik avantajları

Mevcut haliyle EchoSpeech, gürültülü restoranlar veya sessiz kütüphaneler gibi konuşmanın sakıncalı veya uygunsuz olduğu ortamlarda akıllı telefon aracılığıyla başkalarıyla iletişim kurmak için kullanılabilir. Sessiz sesli arayüz aynı zamanda bir kalemle birleştirilebilir ve CAD gibi tasarım yazılımlarıyla birlikte kullanılabilir, böylece klavye ve fareye olan ihtiyaç önemli ölçüde azalır.

Silgiden daha küçük mikrofonlar ve hoparlörlerle donatılan EchoSpeech gözlükleri, yapay zeka destekli giyilebilir bir sonar sistemi olarak çalışarak yüzünüze ses dalgaları gönderip alıyor ve ağız hareketlerini algılıyor. Daha sonra bir derin öğrenme algoritması bu yankı profillerini gerçek zamanlı olarak yaklaşık %95 doğrulukla analiz eder.

Bilgi bilimleri yardımcı doçenti ve Cornell’in Gelecekteki Etkileşimler için Akıllı Bilgisayar Arayüzleri (Bilim Kurgu) Laboratuvarı yöneticisi Cheng Zhang, “Sonarı vücuda doğru hareket ettiriyoruz” dedi.

Mevcut sessiz konuşma tanıma teknolojisi genellikle sınırlı sayıda önceden belirlenmiş komutlara dayanır ve kullanıcının bir kamerayı izlemesini veya kullanmasını gerektirir. Cheng Zhang, bunun ne pratik ne de uygulanabilir olduğunu ve aynı zamanda hem kullanıcı hem de etkileşimde bulundukları kişiler için önemli gizlilik sorunlarına yol açtığını açıkladı.

EchoSpeech’in akustik algılama teknolojisi, taşınabilir video kameralara olan ihtiyacı ortadan kaldırır. Ek olarak, yaşam bilimleri profesörü François Guimbretière’e göre, ses verileri görüntü veya video verilerinden daha küçük olduğundan, işlenmesi için daha az bant genişliği gerektiriyor ve Bluetooth aracılığıyla bir akıllı telefona gerçek zamanlı olarak aktarılabiliyor.

“Ve veriler buluta yüklenmek yerine akıllı telefonunuzda yerel olarak işlendiğinden” dedi, “gizliliğe duyarlı bilgiler asla kontrolünüzden çıkmıyor.”

Table of Contents

Gerçek dünyadaki uygulamalar ve gizlilik avantajları

Size şunları öneriyoruz: