Son zamanlarda yapay zekânın ciddi oranda geliştiğini ve popülerlik kazandığını biliyoruz. Midjourney, DALL-E gibi metinlerden görsel oluşturan sistemlerden ne sorarsak soralım yanıt veren ChatGPT gibi modeller tüm dünyada ses getirmişti. Şimdi ise Microsoft’tan yepyeni bir yapay zekâ hamlesi geldi.
ABD’li teknoloji devi, metinden ses oluşturabilen yapay zekâ modeli ‘VALL-E’yi tanıttı. Yapay zekâ konusunda çığır açabilecek sistemin, insan seslerini oldukça kolay bir şekilde taklit edebildiği ifade edildi. Tabii bu tarz bir teknoloji bazı endişeleri de beraberinde getirdi.
Yalnızca 3 saniyelik bir örneği kullanarak sesleri taklit edebiliyor
Ars Technica’nın bildirdiğine göre VALL-E, yalnızca üç saniyelik bir ses örneğini kulanarak bir insanın sesini taklit edebiliyor. Hatta yapabildiklerinin bununla sınırlı kalmadığı, yapay zekânın konuşmacının duygusuna göre çıkan ses tonuyla eşleşen sonuçları bile çıkarabiliyor.
Microsoft, bir dil modeli olan VALL-E’nin Meta’nın Ekim 2022’de tanıttığı ‘EnCodec’ ismi verilen teknolojiden yararlandığını aktarıyor. Model, normalde gördüğümüz benzer sistemlerin aksine metinden ve seslerden faydalanarak sonuçlar çıkarıyor. Temel olarak, bir kişinin nasıl ses çıkardığını analiz ediyor, EnCodec sayesinde bu bilgiyi ayrı bileşenlere bölüyor ve eğitim verilerini eşleştiriyor. Bunun sonucunda da örnekteki ses taklit edilerek farklı cümleler ortaya çıkarılıyor.
Yapay zekâya ilişkin paylaşılan bir makale de araştırmacıların VALL-E’yi, 7.000’den fazla konuşmacıdan 60.000 saatlik İngilizce dilindeki ses kayıtları ile eğittiğini aktarıyor. Sistemin iyi bir sonuç çıkarması için de örneklerdeki sesin, eğitim verilerindeki bir sese yakın olması gerektiği söyleniyor.