Xiaomi、OmniVoiceをオープンソース化:オープンデータで学習した646言語対応ボイスクローンモデル

icon MarsBit
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
Xiaomi AI LabのKaldiチームは、646言語をサポートするゼロショットテキスト音声変換モデル「OmniVoice」をオープンソース化しました。このモデルは、数秒の参照音声だけで声質をクローンでき、言語を越えて動作します。オープンソースデータで学習され、声の類似度と明瞭性で商業システムを上回っています。オンチェーンデータによると、AIツールへの関心が高まっており、関連プロジェクトの未決済高は着実に増加しています。このモデルは単一の双方向Transformerを使用し、高速推論に最適化されています。

動察 Beating の監視によると、小米AI研究所の次世代Kaldiチームが、646言語をサポートするゼロショット音声クローンTTS(テキストから音声へ)モデル「OmniVoice」をオープンソース化しました。数秒の参照音声だけで音色をクローンでき、言語を越えて利用可能:中国語の録音を入力すれば、同じ声で日本語、韓国語、その他の言語を発話できます。コード、重み、トレーニングデータはすべてオープンソースで、Apache-2.0ライセンス下で提供されています。 アーキテクチャ面では、OmniVoiceは極めてシンプルな設計を採用しています。モデル全体は1つの双方向Transformerのみで構成され、テキストを直接複数のコードブック音声トークン(音声の離散的符号化)にマッピングします。セマンティックトークンから音声トークンへと移行する2段階のパイプラインは不要です。このシンプルな構造を支える2つの重要な設計は、全コードブックランダムマスキング戦略によるトレーニング効率の向上と、大規模言語モデルの事前学習パラメータを初期値として使用することで発音精度を向上させることです。推論速度はリアルタイムの40倍で、PyTorch上で直接実行可能であり、追加の最適化は不要です。 トレーニングデータは50のオープンソース音声データセットから収集され、ノイズ除去と品質フィルタリングを経て合計58万時間に達しました。低リソース言語には動的アップサンプリングを適用し、トレーニング効果を確保しています。24言語でのテストでは、OmniVoiceの音声類似度と可聴性が複数の商用システムを上回りました。102言語でのテストでは、可聴性が実際の録音と同等、あるいはそれ以上であることが確認されました。トレーニングデータが10時間未満のマイナー言語でも合成が可能です。 音声クローン以外にも、このモデルはテキストによる音色カスタマイズ(例:「男性、中年、極低音調」や「女性、青年、四川訛り」)、ノイズ入り参照音声の自動ノイズ除去、笑い声やため息などの感情記号の挿入、中国語・英語の多義語および固有名詞の発音修正もサポートしています。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。