Xiaohongshu、2BパラメーターのTTSモデルdots.ttsをオープンソース化し、ゼロショットボイスクローンを実現

動察Beatingの監視によると、小紅書のhi labは、20億パラメータのエンドツーエンド自己回帰テキスト音声変換（TTS）モデル「dots.tts」をオープンソース化し、Apache 2.0ライセンスのもとで完全な推論および微調節コードを公開しました。公開された重みには、基礎的な事前学習バージョン、自己訂正アライメント（SCA）微調節バージョン、および低遅延推論蒸留バージョンが含まれます。VALL-E、CosyVoice、ChatTTSなどの従来の離散音声符号化トークン（Discrete Codec Tokens）に依存するTTSアーキテクチャとは異なり、dots.ttsは完全な連続的でエンドツーエンドの自己回帰フロー一致アーキテクチャを実現し、パイプライン全体で一切の離散トークンを使用していません。dots.ttsは、48 kHzサンプリングレートのAudioVAEから抽出された連続特徴量と、セマンティックエンコーダー、ボーン言語モデル（Qwen2.5-1.5B-Baseを初期化済みで、ピンイン入力不要で直接BPEテキストを処理）、および自己回帰フロー一致音声ヘッドを統合し、連続潜在変数を予測して生成器によって音声に再構成します。連続特徴量を直接予測するため、dots.ttsは離散量子化による音質損失を回避し、発音の細部、音色の類似性、感情表現力を保持しています。dots.ttsは約150万時間の音声データで事前学習されています。Seed-TTS-Eval評価において、dots.ttsは中国語、英語、中国語難易度テストセットにおける文字誤り率（WER）がそれぞれ0.94％／1.30％／6.60％、類似度スコア（SIM）が81.0／77.1／79.5と、オープンソースSOTAレベルに達しています。24言語のMiniMax Multilingualベンチマークテストでは、平均話者類似度が83.9に達しました。小紅書はHugging Face上でGradio体験スペースを提供しており、ユーザーはゼロショット音声クローンをオンラインでテストできます。