小米開源 OmniVoice:基於開放數據訓練的 646 種語言語音克隆模型

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
小米 AI 實驗室的 Kaldi 團隊已開源 OmniVoice,這是一款支援 646 種語言的零樣本文字轉語音模型。該模型僅需幾秒鐘的參考音頻即可克隆語音音色,並能跨語言運作。基於開源數據訓練,其在語音相似度和可懂度方面優於商業系統。鏈上數據顯示,對 AI 工具的興趣持續上升,相關項目的未平倉量穩步增長。該模型採用單一雙向 Transformer,並針對快速推論進行優化。

根據動察 Beating 監測,小米 AI 實驗室新一代 Kaldi 團隊開源了 OmniVoice,一個支援 646 種語言的零樣本語音克隆 TTS(文本轉語音)模型。僅需幾秒鐘的參考音頻即可克隆音色,且支援跨語言:提供一段中文錄音,模型能用同一個聲音說日語、韓語或其他語言。程式碼、權重和訓練資料全部開源,採用 Apache-2.0 許可證。 架構上,OmniVoice 採用極簡設計。整個模型僅含一個雙向 Transformer,直接將文本映射至多碼本聲學 token(聲音的離散編碼),無需經過語義 token 轉聲學 token 的兩階段流水線。兩項關鍵設計支撐了此簡化架構:全碼本隨機遮蔽策略提升訓練效率,並使用大語言模型的預訓練參數進行初始化以提升發音準確度。推理速度達 40 倍實時,可直接在 PyTorch 上運行,無需額外優化。 訓練資料全部來自 50 個開源語音資料集,經降噪與品質篩選後共計 58 萬小時。低資源語言採用動態上採樣以確保訓練效果。在 24 種語言的測試中,OmniVoice 的語音相似度與可懂度均超越多款商業系統;在 102 種語言的測試中,可懂度接近甚至優於真實錄音。即使訓練資料不足 10 小時的少數語言,也能合成語音。 除語音克隆外,模型還支援以文字描述自訂音色(如「男,中年,極低音調」或「女,青年,四川話」)、自動降噪帶噪參考音頻、插入笑聲嘆息等語氣符號,以及中英文多音字與專有名詞的發音校正。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露