Xiaohongshu、2BパラメーターのTTSモデルdots.ttsをオープンソース化し、ゼロショットボイスクローンを実現

icon MarsBit
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
Xiaohongshuのhi labは、ゼロショット音声クローンをサポートする2BパラメータのTTSモデル「dots.tts」をオープンソース化しました。Apache 2.0ライセンス下で提供され、複数のフォーマットで事前学習済み重みを含む完全な推論および微調整コードが含まれています。dots.ttsは、離散的なオーディオトークンに依存する従来のモデルを上回る、連続的でエンドツーエンドの自己回帰フロー一致アプローチを採用しており、言語ベンチマークで最高性能を達成し、Hugging Faceでライブデモも提供されています。暗号資産市場の流動性が改善される中、このような革新はBTCをインフレヘッジとして強化する可能性があります。

動察Beatingの監視によると、小紅書のhi labは、20億パラメータのエンドツーエンド自己回帰テキスト音声変換(TTS)モデル「dots.tts」をオープンソース化し、Apache 2.0ライセンスのもとで完全な推論および微調節コードを公開しました。公開された重みには、基礎的な事前学習バージョン、自己訂正アライメント(SCA)微調節バージョン、および低遅延推論蒸留バージョンが含まれます。VALL-E、CosyVoice、ChatTTSなどの従来の離散音声符号化トークン(Discrete Codec Tokens)に依存するTTSアーキテクチャとは異なり、dots.ttsは完全な連続的でエンドツーエンドの自己回帰フロー一致アーキテクチャを実現し、パイプライン全体で一切の離散トークンを使用していません。dots.ttsは、48 kHzサンプリングレートのAudioVAEから抽出された連続特徴量と、セマンティックエンコーダー、ボーン言語モデル(Qwen2.5-1.5B-Baseを初期化済みで、ピンイン入力不要で直接BPEテキストを処理)、および自己回帰フロー一致音声ヘッドを統合し、連続潜在変数を予測して生成器によって音声に再構成します。連続特徴量を直接予測するため、dots.ttsは離散量子化による音質損失を回避し、発音の細部、音色の類似性、感情表現力を保持しています。dots.ttsは約150万時間の音声データで事前学習されています。Seed-TTS-Eval評価において、dots.ttsは中国語、英語、中国語難易度テストセットにおける文字誤り率(WER)がそれぞれ0.94%/1.30%/6.60%、類似度スコア(SIM)が81.0/77.1/79.5と、オープンソースSOTAレベルに達しています。24言語のMiniMax Multilingualベンチマークテストでは、平均話者類似度が83.9に達しました。小紅書はHugging Face上でGradio体験スペースを提供しており、ユーザーはゼロショット音声クローンをオンラインでテストできます。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。