Ne Yabay - ElevenLabs ses klonlamayı arşa çıkarıyor
May 2, 2023
ElevenLabs ses klonlamayı arşa çıkarıyor
Öncelikle ses klonlama nedir kısaca ondan bahsedeyim: Min 30 dk’lık (tabii bu kullanılan tekniğe göre değişebilir) ses örneğinizden çeşitli teknikler kullanılarak sesinizin karakteristik özelliklerinin çıkarılması yani sesinizin yapay bir şekilde taklit edilmesidir.
Genellikle TTS (text-to-speech) modellerinin özelleştirilmiş versiyonları ile yapılıyor. Sesinizin bir kere karakteristik özellikleri çıkarıldığında, yani klonlandığında, artık verilen herhangi bir metni sizin sesinizden seslendirmek mümkün oluyor.
İşte şimdi ElevenLabs’ın getirdiği özelliği daha kolay anlayabiliriz: aşağıdaki videodan da görüleceği üzere, ElevenLabs, ses klonlama özelliğine farklı dil desteği getirdi.
Yani klonlanan sesiniz eskiden sadece Türkçe metinleri seslendirebiliyorken, artık farklı dilleri de seslendirebilecek.
LLM’leri eğitmek artık o kadar da pahalı olmayacak
Büyük dil modelleri (ChatGPT vb), son zamanlarda teknoloji dünyasının yıldızı. Muazzam yetenekleri ve geniş uygulama alanları ile neredeyse her gün yeni bir gelişme duyuyoruz. Ancak bu modellerin eğitim maliyeti oldukça yüksek. Trilyonlarca token üzerinde eğitim gören bu modeller, maliyetleri nedeniyle bir hayli pahalı.
Yeni bir araştırma, Stanford ve Cornell Üniversiteleri'nden bir grup öğrenci tarafından sunuldu. Bu araştırmada, büyük dil modellerinin eğitilmesinin yüksek maliyetli olmaktan çıkabileceği belirtiliyor. Örneğin, 55 milyon Wikipedia sayfasında çıkarım yapmanın maliyeti 100 bin dolardan fazla. Ancak bu araştırmacıların önerdiği yeni yöntem, çıkarım maliyetlerini büyük ölçüde azaltırken, sonuçların kalitesini de artırıyor. Bu arada ortalama 110 kat daha az maliyetle bu işin yapılabileceğini iddia ediyorlar.
Bu yeni sistemin adı EVAPORATE. Bu sistem, büyük dil modelleri kullanılarak oluşturulmuş ve belgelerden doğrudan veri çıkarma veya veri çıkarma işlemini gerçekleştirecek kodu oluşturma gibi iki farklı strateji sunuyor. Bu iki yaklaşım arasında bir maliyet-kalite dengelemesi olduğunu bulmuşlar. Kod oluşturma daha ucuz olmasına rağmen, doğrudan belge işleme yöntemi daha doğru sonuçlar veriyor.
Microsoft’tun Text-To-Speech konulu yeni çalışması
Metinden-sese yani (text-to-speech) teknolojisi, gerçek insan sesini taklit edebilmeyi hedefliyor. Öyle ki, NaturalSpeech gibi bazı gelişmiş sistemler, insan sesine tıpatıp benzeyen bir kalitede sesler üretebiliyor.
İşte Microsoft’ta yaptığı yeni bir çalışmada (NaturalSpeech 2) bu hedefe katkı sunmaya devam ediyor.
Bu yenilikçi sistem, ses sentezleme konusunda zero-shot-learning (aşağıda açıkladım) kullanıyor ve ses dalgalarını dönüştürmek için latent difüzyon modellerini kullanıyor. Bu sayede, geniş bir ses çeşitliliğini başarılı bir şekilde modelleyebiliyor.
Zero-shot-learning de kısaca şu: Genellikle bir modelin daha önce hiç görmediği bir durumu veya örneği başarılı bir şekilde işleyebilme yeteneğini ifade eder. Bu, modelin önceden öğrendikleri üzerinden genellemeler yapabilmesi ve bu bilgiyi yeni, daha önce karşılaşılmamış durumları anlamak ve çözmek için kullanabilmesi anlamına geliyor.
Bu durumda, NaturalSpeech 2'nin bir sesi veya ses stili ile ilgili herhangi bir önceden var olan veri olmaksızın yeni bir sesi modelleyebilme yeteneğinin güçlü olduğunu gösteriyor.
ChatGPT tekrar İtalya’da
Geçtiğimiz aylarda İtalya çeşitli (veri güvenliği ve yaş sınırlaması gibi) sebeplerle ChatGPT kullanımını yasaklamıştı.
OpenAI, yasal olmayan bir şekilde veri toplanmasını önleyeceğini ve reşit olmayan kullanıcıların uygunsuz içeriğe erişememesini sağlayacağı taahhüdünde bulunmasıyla İtalya tekrar ChatGPT kullanımını açmış oldu.