Konuşma Tanıma Nereye Gidiyor?



Yakın zamana kadar, bir bilgisayarla sohbet etme fikri saf bir bilim kurgu gibi görünüyordu. Bir bilgisayardan bölme bölmesi kapılarını açmasını istediyseniz, bu yalnızca filmlerdeydi.

Ama işler değişiyor ve hızla değişiyor. Giderek artan sayıda insan artık akıllı cep telefonlarıyla konuşuyor, onlardan e-posta ve metin mesajları göndermelerini, yol tarifi aramalarını veya Web'de bilgi bulmalarını istiyor.





Burlington, Massachusetts merkezli bir şirket olan ve Dragon yazılımıyla konuşma tanıma pazarına hakim olan Nuance Communications'ın baş teknoloji sorumlusu Vlad Sejnoha, ses ve doğal dil anlayışının aniden ön plana çıktığı bir geçiş noktasındayız, diyor. ve diğer ürünler. Bence konuşma tanıma, mevcut [bilgisayar] arayüzünü gerçekten alt üst edecek.

İlerleme, kısmen, makine öğrenimi ve istatistiksel veri madenciliği teknikleri de dahil olmak üzere, makinelerin insan konuşmasını anlamasına yardımcı olmak için gereken teknolojilerdeki istikrarlı ilerleme sayesinde gerçekleşti. Gelişmiş ses teknolojisi, kullanıcıların menüler arasında gezinmesine izin verdiği ve gerçek bir müşteri hizmetleri temsilcisine teslim edilmesi gereken kızgın müşterileri belirlemeye yardımcı olduğu çağrı merkezlerinde zaten yaygın.

Artık güçlü mobil cihazların hızlı yükselişi, sesli arayüzleri daha da kullanışlı ve yaygın hale getiriyor.



1980'lerden beri konuşma arayüzleri üzerinde çalışan MIT'de kıdemli bir araştırma bilimcisi olan Jim Glass, günümüz akıllı telefonlarının 90'larda birlikte çalıştığı laboratuvar makineleri kadar işlem gücüne sahip olduğunu söylüyor. Akıllı telefonlar ayrıca, sunucuların hem ses tanıma hem de sözlü sorguları anlama ile ilgili ağır yükleri kaldırabileceği buluta yüksek bant genişliğine sahip veri bağlantılarına sahiptir. Glass, daha fazla veri ve daha fazla bilgi işlem gücünün birleşimi, daha önce yapamadığınız şeyleri bugün yapabileceğiniz anlamına geliyor, diyor. Daha karmaşık istatistiksel modeller kullanabilirsiniz.

Mobil ses arabiriminin en belirgin örneği, elbette, en son iPhone'da yerleşik olarak gelen sesle etkinleştirilen kişisel asistan Siri'dir. Ancak ses işlevi Android'de, Windows Phone platformunda ve diğer mobil sistemlerin çoğunda ve birçok uygulamada yerleşiktir. Bu arayüzlerin hala önemli sınırlamaları olsa da (bkz. Sosyal Zeka), gerçekten konuşabileceğimiz makine arayüzlerine biraz daha yaklaşıyoruz.

Nüans, ses teknolojisindeki patlamanın merkezinde yer alır. Şirket 1992 yılında Visioneer olarak kuruldu ve düzinelerce başka ses teknolojisi işletmesini satın aldı. Şu anda dünya çapında 35 yerde 6.000'den fazla çalışanı var ve 2012'nin ikinci çeyreğindeki gelirleri, 2011'in aynı dönemine göre yüzde 22.4 artışla 390,3 milyon dolar oldu.

Son yıllarda Nuance, ses tanıma konusundaki uzmanlığını konuşma arayüzleri için gelişmekte olan pazara ustaca uyguladı. Şirket, diğer birçok şirkete ses tanıma teknolojisi sağlıyor ve yaygın olarak Siri'nin konuşma bileşenini sağladığına inanılıyor.



Nuance'ın CTO'su, kısmen kullanıcıların elleri ve gözleri meşgul olduğu için konuşmanın mobil bilgi işlem için ideal olduğunu söylüyor - ama aynı zamanda tek bir sözlü komutun normalde çok sayıda kaydırma ve pres gerektiren görevleri yerine getirebilmesi nedeniyle. Sejnoha, birdenbire bu yeni yapı taşına, soruna getirebileceğiniz bu yeni boyuta sahip olduğunuzu söylüyor. Ve sanırım bunu göz önünde bulundurarak temel modern cihaz kullanıcı arayüzünü tasarlayacağız.

laboratuvarlarda yapılan bebekler

Cep telefonlarındaki ses tanıma yazılımının başarısından ilham alan Nuance, konuşma arayüzlerini televizyon ve otomobil başta olmak üzere daha birçok yere yerleştirmeyi umuyor. Her ikisi de popülerdir ve yenilik için olgunlaşmıştır.

TV'de bir program bulmak veya bir DVR kaydı planlamak için, izleyicilerin şu anda metin sorgularını girmek için asla tasarlanmamış bir uzaktan kumanda kullanarak garip menülerde gezinmesi gerekiyor. Google TV gibi bir program bulmayı kolaylaştırması gereken ürünler, sadece bir akşam eğlencesi için dinlenmek isteyen insanlar için fazla karmaşık olduğunu kanıtladı.

Nuance'ın araştırma laboratuvarlarında, Sejnoha, Dragon TV adlı bir yazılımın sahte bir oturma odasında bir televizyonda çalıştığını gösterdi. Bir meslektaşım, Dragon TV, Meryl Streep'in oynadığı filmleri bul dediğinde, arayüz, birkaç uygun filmi seçmek için kanal listeleri aracılığıyla anında tarandı. Bu teknolojinin bir versiyonu zaten Samsung tarafından satılan bazı televizyonlarda bulunuyor.

Apple'ın kendi televizyonunu geliştirdiği yaygın olarak söyleniyor ve Siri'nin onun denetleyicisi olacağı tahmin ediliyor. Bu fikir, Walter Isaacson'ın geç CEO'nun sonunda TV arayüzünü çözdüğünü iddia ettiği söylenen Steve Jobs biyografisi tarafından desteklendi.

Bu arada, Ford otomobillerindeki Sync eğlence sistemi, sürücülerin yol tarifleri, hava durumu bilgileri ve şarkılar almasına izin vermek için Nuance'ın teknolojisini zaten kullanıyor. Yoldaki yaklaşık dört milyon Ford otomobilinde ses tanıma ile Sync var. Geçen hafta Nuance, diğer otomobil üreticilerinin araçlara sesli kontrol özellikleri eklemesine izin verecek Dragon Drive adlı yazılımı tanıttı.

Bu yeni bağlamların her ikisi de zorludur. Akıllı telefonlarda sesli arayüzlerin popüler hale gelmesinin bir nedeni, kullanıcıların doğrudan cihazın mikrofonuna konuşmasıdır. Sistemin arka plan gürültüsünün daha fazla olduğu televizyonlarda ve arabalarda iyi çalışmasını sağlamak için şirket, dizi mikrofonlar ve gürültü önleme teknolojisi ile deneyler yapıyor.

Nuance, bir uygulamaya ses tanıma teknolojisini dahil etmek isteyen herkes için bir dizi yazılım geliştirme kiti sunar. Ashland, Oregon merkezli bir şirket olan Montrue Technologies, doktorların notları dikte etmesini sağlayan bir iPad uygulaması geliştirmek için Nuance'ın mobil tıbbi SDK'sını kullandı.

Şaşırtıcı derecede doğru, diyor Montrue CEO'su ve kurucu ortağı Brian Phelps ve kendisi bir acil servis doktoru. Konuşma bir köşeyi döndü; kutudan çıkar çıkmaz inanılmaz doğruluk elde ettiğimiz bir noktaya geldi.

Buna karşılık, kitler Nuance'ın konumunu destekleyerek şirketin sunucuları aracılığıyla her zamankinden daha fazla ses verisi göndererek ses tanıma ve dil işleme algoritmalarını geliştirmesine yardımcı oluyor. MIT'den Glass'ın dediği gibi, konuşma tanıma camiasında uzun zamandır söylenen bir söz vardır: 'Daha fazla veri gibi veri yok'. Nuance, gizliliği korumak için verileri anonim bir biçimde sakladığını söylüyor.

Sejnoha, birkaç yıl içinde mobil ses arayüzlerinin çok daha yaygın ve güçlü olacağına inanıyor. Ona dokunmadan konuşabilmeliyim, diyor. Sürekli tetikleyici sözcükleri dinleyecek ve sadece yapacak - bir takvim aç, bir metin mesajı hazırla ya da gitmek istediğin yere giden bir tarayıcı.

Belki insanlar, Google'da geliştirilmekte olan fotoğraf çeken gözlükler gibi, taktıkları bilgisayarlarla bile konuşacaklar. Nuance'daki kaynaklar, konuşma teknolojisinin giyilebilir bilgisayarlarda çalışacak şekilde nasıl tasarlanacağını aktif olarak planladıklarını söylüyor.

saklamak

Gerçek Teknolojiler

Kategori

Kategorize Edilmemiş

Teknoloji

Biyoteknoloji

Teknoloji Politikası

İklim Değişikliği

İnsan Ve Teknoloji

Silikon Vadisi

Bilgi Işlem

Mit Haber Dergisi

Yapay Zeka

Uzay

Akıllı Şehirler

Blok Zinciri

Özellik Hikayesi

Mezun Profili

Mezun Bağlantısı

Mit Haber Özelliği

1865

Benim Görüşüm

77 Toplu Cadde

77 Toplu Cad

Yazarla Tanışın

Cömertlik Içindeki Profiller

Kampüste Görüldü

Mezun Mektupları

Haberler

Seçim 2020

İle Indeksi

Kubbenin Altında

Yangın Hortumu

İle İndeks

Sonsuz Hikayeler

Pandemi Teknoloji Projesi

Başkandan

Kapak Hikayesi

Fotoğraf Galerisi

Tavsiye