Google'ın AI artık sesinizi korurken konuşmanızı çevirebilir

BM Genel Sekreteri Ban Ki-moon'un çeviri cihazını dinlerken çekilmiş bir görüntüsüEMILIO MORENATTI / AP
Bu İspanyolca ses klibini dinleyin.
dünya gibi yeni gezegen keşfi
Geleneksel bir otomatik çeviri sisteminden geçirildiğinde İngilizce çevirisi bu şekilde görünebilir.
4 kollu adam
Şimdi, Google'ın yeni otomatik çeviri sisteminden geçirildiğinde kulağa böyle geliyor.
2 zamanlı araba motoru
Sonuçlar mükemmel değil, ancak Google'ın çevirmeninin orijinal konuşmacının sesini ve tonunu nasıl koruyabildiğini duyabilirsiniz. Bunu, ses girişini doğrudan ses çıkışına dönüştürdüğü için yapabilir. herhangi bir ara adım olmadan . Buna karşılık, geleneksel çeviri sistemleri sesi metne dönüştürür, metni çevirir ve ardından orijinal sesin özelliklerini kaybederek sesi yeniden sentezler.
Adı geçen yeni sistem, translatotron, hepsi konuşmacının ses spektrogramına bakan üç bileşene sahiptir - genellikle ses izi olarak adlandırılan ses çalarken kullanılan frekansların görsel bir anlık görüntüsü. İlk bileşen, giriş dilindeki ses spektrogramını çıkış dilindeki ses spektrogramıyla eşleştirmek için eğitilmiş bir sinir ağı kullanır. İkincisi, spektrogramı çalınabilecek bir ses dalgasına dönüştürür. Üçüncü bileşen daha sonra orijinal konuşmacının vokal özelliklerini nihai ses çıkışına geri katlayabilir.
Bu yaklaşım sadece önemli sözel olmayan ipuçlarını koruyarak daha incelikli çeviriler üretmekle kalmaz, aynı zamanda teoride çeviri hatasını da en aza indirmelidir, çünkü görevi daha az adıma indirger.
Translatotron şu anda bir kavram kanıtıdır. Test sırasında, araştırmacılar sistemi yalnızca İspanyolca'dan İngilizce'ye çeviri ile denediler, bu da zaten çok sayıda özenle seçilmiş eğitim verisi aldı. Ancak yukarıdaki klip gibi ses çıkışları, ileride ticari bir sistemin potansiyelini gösteriyor. Daha fazlasını dinleyebilirsiniz burada .