Beating İzleme'ye göre, Xiaomi AI Laboratuvarı'nın yeni nesil Kaldi ekibi, 646 dilini destekleyen ve sıfır örnekli ses klonlama TTS (metinden sese) modeli olan OmniVoice'i açık kaynak hale getirdi. Sadece birkaç saniyelik bir referans sesiyle ses tonu klonlanabilir; bu, diller arası da geçerlidir: Çince bir kayıttan yola çıkarak model, aynı sesle Japonca, Korece veya diğer dilleri konuşabilir. Kod, ağırlıklar ve eğitim verileri tamamen açık kaynak olup, Apache-2.0 lisansı altında sunulmuştur. Yapısal olarak OmniVoice, son derece basit bir yaklaşım izler. Tüm model, tek bir çift yönlü Transformer'dan oluşur ve doğrudan metinden çoklu kod kitaplığı akustik token'lara (sesin ayrık kodlamalarına) haritalandırır; semantik token'lara dönüştürüp ardından akustik token'lara geçmek için iki aşamalı bir işlem hattına gerek yoktur. Bu basit yapıyı iki temel tasarım destekler: Tüm kod kitaplıklarını rastgele maskeleme stratejisiyle eğitim verimliliği artırılır ve büyük dil modellerinin önceden eğitilmiş parametreleriyle başlatılarak telaffuz doğruluğu iyileştirilir. Tahmin hızı gerçek zamanın 40 katıdır ve ekstra optimizasyona gerek olmadan doğrudan PyTorch üzerinde çalışır. Eğitim verileri tamamen 50 açık kaynak ses veri setinden gelmekte olup, gürültü azaltma ve kalite filtrelemesi sonrası toplam 580.000 saat veri elde edilmiştir. Düşük kaynaklı diller için dinamik üst örnekleme kullanılarak eğitim kalitesi garanti altına alınmıştır. 24 dilde yapılan testlerde OmniVoice, ses benzerliği ve anlaşırlık açısından birçok ticari sistemi aştı. 102 dilde yapılan testlerde anlaşırlık, gerçek kayıtlara eşit veya daha iyiydi. 10 saatten az eğitim verisine sahip az kullanılan diller için bile sentezlenebilir ses üretimi mümkün. Ses klonlama dışında, model metin tabanlı ses tonu özelleştirme (örneğin: "Erkek, orta yaş, çok düşük ton" veya "Kadın, genç, Sichuan lehçesi"), gürültülü referans seslerinin otomatik gürültü azaltılması, gülüş ve iç çekme gibi ton ifadelerinin eklenmesi ile Çince ve İngilizce çok anlamlı kelimelerin ve özel isimlerin telaffuz düzeltmelerini desteklemektedir.
Xiaomi, OmniVoice'ı Açık Kaynak Hale Getirir: Açık Veri Üzerinde Eğitilen 646 Dil Ses Klonlama Modeli
MarsBitPaylaş






Xiaomi AI Lab’ın Kaldi ekibi, 646 dilini destekleyen sıfır örneklilikli metinden sese (zero-shot text-to-speech) modeli OmniVoice’i açık kaynak hale getirdi. Model, sadece birkaç saniyelik referans ses kullanarak ses tonunu klonlayabilir ve diller arası çalışır. Açık kaynak verilerde eğitilen bu model, ses benzerliği ve anlaşırlık açısından ticari sistemleri aşıyor. Zincir üzerindeki veriler, ilgili projelerdeki açık pozisyonların düzenli olarak arttığını gösteriyor. Model, tek yönlü bir Transformer kullanır ve hızlı çıkarım için optimize edilmiştir.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.