Ayon sa pagmamasid ng Beating, ang bagong henerasyon ng Kaldi team ng Xiaomi AI Laboratory ay nagbukas ng OmniVoice, isang zero-shot voice cloning TTS (text-to-speech) na modelo na sumusuporta sa 646 na wika. Maaaring kopyahin ang tinig gamit ang ilang segundo ng reference audio, at maaari itong gawin sa iba’t ibang wika: ibigay ang isang recording sa Chinese, at ang modelo ay maaaring gamitin ang parehong tinig upang sabihin ang Japanese, Korean, o iba pang mga wika. Ang code, weights, at training data ay bukas na available sa ilalim ng Apache-2.0 license. Sa arkitektura, ang OmniVoice ay sumusunod sa isang minimalist na pagkakabuo. Ang buong modelo ay binubuo lamang ng isang bidirectional Transformer na direktang nagmamapa mula sa teksto patungo sa mga multi-codebook acoustic tokens (discrete encoding ng tunog), nang walang kailangang magpasagot sa dalawang yugto ng pagpapalit mula sa semantic tokens patungo sa acoustic tokens. Dalawang pangunahing disenyo ang nagpapatibay sa simpleng istrukturang ito: ang full-codebook random masking strategy upang mapabuti ang training efficiency, at ang paggamit ng pre-trained parameters mula sa malalaking language models upang mapabuti ang accuracy ng pagbigkas. Ang inference speed ay 40x real-time, at maaaring i-run nang direkta sa PyTorch nang walang karagdagang optimization. Ang lahat ng training data ay galing sa 50 open-source speech datasets, at pagkatapos ng denoising at quality filtering, kumakatawan ito sa 580,000 na oras. Ang mga wika na may mababang yaman ay ginagamit ang dynamic upsampling upang siguraduhin ang epekto ng training. Sa pagsubok sa 24 na wika, lumampas ang OmniVoice sa voice similarity at intelligibility kumpara sa maraming commercial systems. Sa pagsubok sa 102 na wika, ang intelligibility ay malapit o mas mahusay kaysa sa tunay na recording. Maaari ring i-synthesize ang mga wika na may training data na mas mababa sa 10 oras. Bukod sa voice cloning, sumusuporta rin ang modelo sa pag-customize ng tinig gamit ang teksto (tulad ng “lalaki, katamtaman ang edad, sobrang mababang tono” o “babae, kabataan, Siniguan dialect”), automatic denoising ng reference audio na may ingay, pag-insert ng parirala tulad ng tawa o paghinga, at pagkorekta sa pagbigkas ng mga multi-pronunciation Chinese/English words at mga pangalan.
Ibinahagi ni Xiaomi ang OmniVoice: Modelong Pagkakakilala sa Boses na 646-wika na Pinagtrabahuhan sa Buksang Data
MarsBitI-share






Ang Kaldi team ng Xiaomi AI Lab ay nag-open source ng OmniVoice, isang zero-shot text-to-speech model na sumusuporta sa 646 na wika. Ang model ay maaaring kopyahin ang timbre ng boses gamit ang ilang segundo lamang ng reference audio at gumagana sa iba’t ibang wika. Pinagtrabahuhan sa open-source data, ito ay lumalampas sa mga komersyal na sistema sa pagkakatulad at pagkakaunawa ng boses. Ang on-chain data ay nagpapakita ng patuloy na pagtaas ng interes sa AI tools, kasama ang pagtaas ng open interest sa mga kaugnay na proyekto. Ang model ay gumagamit ng isang single bidirectional Transformer at optimal para sa mabilis na inference.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.