小紅書開源 2B 參數 TTS 模型 dots.tts，支援零樣本語音克隆

根據動察 Beating 監測，小紅書 hi lab 開源了 20 億參數的端到端自迴歸文本轉語音（TTS）模型 dots.tts，並採用 Apache 2.0 協議公開了完整的推理與微調程式碼。公開發布的權重包括基礎預訓練版本、自我糾錯對齊（SCA）微調版本以及低延遲推理蒸餾版本。與傳統依賴離散音訊編解碼 Token（Discrete Codec Tokens）的 TTS 架構（如 VALL-E、CosyVoice、ChatTTS 等）不同，dots.tts 實現了全連續、端到端的自迴歸流匹配架構，在整個管線中完全不使用任何離散 Token。dots.tts 將 48 kHz 採樣率的 AudioVAE 提取的連續特徵與語義編碼器、骨幹語言模型（初始化自 Qwen2.5-1.5B-Base，直接處理 BPE 文本，無需拼音輸入）以及自迴歸流匹配聲學頭相結合，預測連續潛變數，並由生成器重構為音訊。由於直接預測連續特徵，dots.tts 避開了離散量化造成的音質損失，保留了發音細節、音色相似度與情感表現力。dots.tts 基於約 150 萬小時語音資料預訓練。在 Seed-TTS-Eval 評測中，dots.tts 在中文、英文和中文困難測試集上的字錯誤率（WER）分別為 0.94% / 1.30% / 6.60%，相似度得分（SIM）為 81.0 / 77.1 / 79.5，均達到開源 SOTA 水平。在 24 種語言的 MiniMax Multilingual 基準測試中，平均說話人相似度達到 83.9。小紅書已在 Hugging Face 提供了 Gradio 試驗空間，供用戶線上測試零樣本聲音克隆。