Ibinahagi ni Xiaomi ang OmniVoice: Modelong Pagkakakilala sa Boses na 646-wika na Pinagtrabahuhan sa Buksang Data

Ayon sa pagmamasid ng Beating, ang bagong henerasyon ng Kaldi team ng Xiaomi AI Laboratory ay nagbukas ng OmniVoice, isang zero-shot voice cloning TTS (text-to-speech) na modelo na sumusuporta sa 646 na wika. Maaaring kopyahin ang tinig gamit ang ilang segundo ng reference audio, at maaari itong gawin sa iba’t ibang wika: ibigay ang isang recording sa Chinese, at ang modelo ay maaaring gamitin ang parehong tinig upang sabihin ang Japanese, Korean, o iba pang mga wika. Ang code, weights, at training data ay bukas na available sa ilalim ng Apache-2.0 license. Sa arkitektura, ang OmniVoice ay sumusunod sa isang minimalist na pagkakabuo. Ang buong modelo ay binubuo lamang ng isang bidirectional Transformer na direktang nagmamapa mula sa teksto patungo sa mga multi-codebook acoustic tokens (discrete encoding ng tunog), nang walang kailangang magpasagot sa dalawang yugto ng pagpapalit mula sa semantic tokens patungo sa acoustic tokens. Dalawang pangunahing disenyo ang nagpapatibay sa simpleng istrukturang ito: ang full-codebook random masking strategy upang mapabuti ang training efficiency, at ang paggamit ng pre-trained parameters mula sa malalaking language models upang mapabuti ang accuracy ng pagbigkas. Ang inference speed ay 40x real-time, at maaaring i-run nang direkta sa PyTorch nang walang karagdagang optimization. Ang lahat ng training data ay galing sa 50 open-source speech datasets, at pagkatapos ng denoising at quality filtering, kumakatawan ito sa 580,000 na oras. Ang mga wika na may mababang yaman ay ginagamit ang dynamic upsampling upang siguraduhin ang epekto ng training. Sa pagsubok sa 24 na wika, lumampas ang OmniVoice sa voice similarity at intelligibility kumpara sa maraming commercial systems. Sa pagsubok sa 102 na wika, ang intelligibility ay malapit o mas mahusay kaysa sa tunay na recording. Maaari ring i-synthesize ang mga wika na may training data na mas mababa sa 10 oras. Bukod sa voice cloning, sumusuporta rin ang modelo sa pag-customize ng tinig gamit ang teksto (tulad ng “lalaki, katamtaman ang edad, sobrang mababang tono” o “babae, kabataan, Siniguan dialect”), automatic denoising ng reference audio na may ingay, pag-insert ng parirala tulad ng tawa o paghinga, at pagkorekta sa pagbigkas ng mga multi-pronunciation Chinese/English words at mga pangalan.