小米開源 OmniVoice：基於開放數據訓練的 646 種語言語音克隆模型

根據動察 Beating 監測，小米 AI 實驗室新一代 Kaldi 團隊開源了 OmniVoice，一個支援 646 種語言的零樣本語音克隆 TTS（文本轉語音）模型。僅需幾秒鐘的參考音頻即可克隆音色，且支援跨語言：提供一段中文錄音，模型能用同一個聲音說日語、韓語或其他語言。程式碼、權重和訓練資料全部開源，採用 Apache-2.0 許可證。架構上，OmniVoice 採用極簡設計。整個模型僅含一個雙向 Transformer，直接將文本映射至多碼本聲學 token（聲音的離散編碼），無需經過語義 token 轉聲學 token 的兩階段流水線。兩項關鍵設計支撐了此簡化架構：全碼本隨機遮蔽策略提升訓練效率，並使用大語言模型的預訓練參數進行初始化以提升發音準確度。推理速度達 40 倍實時，可直接在 PyTorch 上運行，無需額外優化。訓練資料全部來自 50 個開源語音資料集，經降噪與品質篩選後共計 58 萬小時。低資源語言採用動態上採樣以確保訓練效果。在 24 種語言的測試中，OmniVoice 的語音相似度與可懂度均超越多款商業系統；在 102 種語言的測試中，可懂度接近甚至優於真實錄音。即使訓練資料不足 10 小時的少數語言，也能合成語音。除語音克隆外，模型還支援以文字描述自訂音色（如「男，中年，極低音調」或「女，青年，四川話」）、自動降噪帶噪參考音頻、插入笑聲嘆息等語氣符號，以及中英文多音字與專有名詞的發音校正。