根據動察 Beating 監測,小紅書 hi lab 開源了 20 億參數的端到端自迴歸文本轉語音(TTS)模型 dots.tts,並採用 Apache 2.0 協議公開了完整的推理與微調程式碼。公開發布的權重包括基礎預訓練版本、自我糾錯對齊(SCA)微調版本以及低延遲推理蒸餾版本。與傳統依賴離散音訊編解碼 Token(Discrete Codec Tokens)的 TTS 架構(如 VALL-E、CosyVoice、ChatTTS 等)不同,dots.tts 實現了全連續、端到端的自迴歸流匹配架構,在整個管線中完全不使用任何離散 Token。dots.tts 將 48 kHz 採樣率的 AudioVAE 提取的連續特徵與語義編碼器、骨幹語言模型(初始化自 Qwen2.5-1.5B-Base,直接處理 BPE 文本,無需拼音輸入)以及自迴歸流匹配聲學頭相結合,預測連續潛變數,並由生成器重構為音訊。由於直接預測連續特徵,dots.tts 避開了離散量化造成的音質損失,保留了發音細節、音色相似度與情感表現力。dots.tts 基於約 150 萬小時語音資料預訓練。在 Seed-TTS-Eval 評測中,dots.tts 在中文、英文和中文困難測試集上的字錯誤率(WER)分別為 0.94% / 1.30% / 6.60%,相似度得分(SIM)為 81.0 / 77.1 / 79.5,均達到開源 SOTA 水平。在 24 種語言的 MiniMax Multilingual 基準測試中,平均說話人相似度達到 83.9。小紅書已在 Hugging Face 提供了 Gradio 試驗空間,供用戶線上測試零樣本聲音克隆。
小紅書開源 2B 參數 TTS 模型 dots.tts,支援零樣本語音克隆
MarsBit分享






小紅書的 hi lab 已開源名為 dots.tts 的 2B 參數 TTS 模型,支援零樣本語音克隆。該模型採用 Apache 2.0 授權,提供完整的推論與微調代碼,並附有多種格式的預訓練權重。dots.tts 採用連續、端到端的自迴歸流匹配方法,超越了依賴離散音訊標記的傳統模型,在語言基準測試中表現頂尖,並在 Hugging Face 上提供即時示範。隨著加密貨幣市場流動性提升,此類創新可能進一步強化 BTC 作為抗通脹工具的地位。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。