Xiaomi, OmniVoice'ı Açık Kaynak Hale Getirir: Açık Veri Üzerinde Eğitilen 646 Dil Ses Klonlama Modeli

Beating İzleme'ye göre, Xiaomi AI Laboratuvarı'nın yeni nesil Kaldi ekibi, 646 dilini destekleyen ve sıfır örnekli ses klonlama TTS (metinden sese) modeli olan OmniVoice'i açık kaynak hale getirdi. Sadece birkaç saniyelik bir referans sesiyle ses tonu klonlanabilir; bu, diller arası da geçerlidir: Çince bir kayıttan yola çıkarak model, aynı sesle Japonca, Korece veya diğer dilleri konuşabilir. Kod, ağırlıklar ve eğitim verileri tamamen açık kaynak olup, Apache-2.0 lisansı altında sunulmuştur. Yapısal olarak OmniVoice, son derece basit bir yaklaşım izler. Tüm model, tek bir çift yönlü Transformer'dan oluşur ve doğrudan metinden çoklu kod kitaplığı akustik token'lara (sesin ayrık kodlamalarına) haritalandırır; semantik token'lara dönüştürüp ardından akustik token'lara geçmek için iki aşamalı bir işlem hattına gerek yoktur. Bu basit yapıyı iki temel tasarım destekler: Tüm kod kitaplıklarını rastgele maskeleme stratejisiyle eğitim verimliliği artırılır ve büyük dil modellerinin önceden eğitilmiş parametreleriyle başlatılarak telaffuz doğruluğu iyileştirilir. Tahmin hızı gerçek zamanın 40 katıdır ve ekstra optimizasyona gerek olmadan doğrudan PyTorch üzerinde çalışır. Eğitim verileri tamamen 50 açık kaynak ses veri setinden gelmekte olup, gürültü azaltma ve kalite filtrelemesi sonrası toplam 580.000 saat veri elde edilmiştir. Düşük kaynaklı diller için dinamik üst örnekleme kullanılarak eğitim kalitesi garanti altına alınmıştır. 24 dilde yapılan testlerde OmniVoice, ses benzerliği ve anlaşırlık açısından birçok ticari sistemi aştı. 102 dilde yapılan testlerde anlaşırlık, gerçek kayıtlara eşit veya daha iyiydi. 10 saatten az eğitim verisine sahip az kullanılan diller için bile sentezlenebilir ses üretimi mümkün. Ses klonlama dışında, model metin tabanlı ses tonu özelleştirme (örneğin: "Erkek, orta yaş, çok düşük ton" veya "Kadın, genç, Sichuan lehçesi"), gürültülü referans seslerinin otomatik gürültü azaltılması, gülüş ve iç çekme gibi ton ifadelerinin eklenmesi ile Çince ve İngilizce çok anlamlı kelimelerin ve özel isimlerin telaffuz düzeltmelerini desteklemektedir.