Londra Queen Mary Üniversitesi’nin yürüttüğü çalışma, yapay zeka (AI) tabanlı ses sentezinin ‘deepfake’ (ses klonu) çıtasını insan kaydıyla başa baş seviyeye taşıdığını gösterdi. Araştırmada, gerçek insan sesleri; belirli bir konuşmacıdan birkaç dakikalık kayıtla ‘klonlanmış’ yapay sesler ve herhangi bir kişiye bağlı olmayan, büyük ses modellerinden üretilmiş sentetik sesler ile karşılaştırıldı. Katılımcılardan örnekleri gerçekçilik, baskınlık/otorite ve güvenilirlik açısından derecelendirmeleri istendi.
ARAŞTIRMANIN TASARIMI
Ekip, son teknoloji ticari yazılımlarla iki farklı AI ses türü oluşturdu: Birincisi, izinli insan kayıtlarından doğrudan taklit edilen klonlar; ikincisi, anonim büyük ses modellerinden türetilen sentetik örnekler. Değerlendirmelerde ayrıca, AI yüz çalışmalarında gözlenen ve sentetik içeriklerin gerçeklerden ‘daha gerçek’ algılanmasına yol açabilen ‘hipergerçekçilik etkisi’ olup olmadığı da test edildi.
GERÇEĞE YAKIN SONUÇ
Bulgular, hipergerçekçilik etkisinin sese dair bariz bir kanıt sunmadı; ancak ses klonlarının gerçek insan kayıtları kadar gerçekçi duyulabildiğini net biçimde ortaya koydu. Dahası, her iki AI ses türü de katılımcılar tarafından insan seslerinden daha baskın (otoriter) bulunurken, bazı örnekler daha güvenilir olarak da algılandı. Bu sonuç, dinleyicilerin AI ile üretilen konuşmaları ayırt etmesini giderek daha zor bir problem haline getiriyor.

RİSKLER VE ETİK
Araştırma ekibi, tüketici teknolojilerindeki hızlı dönüşüme dikkat çekti. Akıllı asistanlarla (Alexa, Siri vb.) AI seslerinin gündelik yaşama yerleştiğini, son nesil sentezleyicilerin ise doğal insan konuşmasına çok yaklaştığını vurguladı. Ekip, yalnızca birkaç dakikalık kaynak sesle, asgari uzmanlık ve neredeyse sıfır maliyet ile ikna edici ses klonlarının üretilebildiğini; bunun yanlış bilgi, dolandırıcılık ve kimlik sahtekarlığı açısından önemli sonuçlar doğurduğunu belirtiyor. Bu nedenle, etik çerçeveler, telif ve güvenlik standartları ile istatistiksel/akustik tespit araçlarının hızla güçlendirilmesi gerektiği değerlendiriliyor.
YENİ FIRSATLAR DOĞUYOR
Araştırmacılar, risklerin yanında fırsatların da büyüdüğüne işaret ediyor. Yüksek kaliteli, kişiye özel sentetik sesler, erişilebilirliği (ör. konuşma güçlüğü yaşayan bireyler için kişisel timbre koruması), eğitim (doğal anlatım, çok dilli içerik) ve iletişim (daha doğal arayüzler) alanlarında kullanıcı deneyimini ileri taşıyabilir. Böylece, ölçeklenebilir ve sürdürülebilir ses üretimiyle yeni servislerin önü açılabilir.
