Xiaomi、OmniVoiceをオープンソース化：オープンデータで学習した646言語対応ボイスクローンモデル

動察 Beating の監視によると、小米AI研究所の次世代Kaldiチームが、646言語をサポートするゼロショット音声クローンTTS（テキストから音声へ）モデル「OmniVoice」をオープンソース化しました。数秒の参照音声だけで音色をクローンでき、言語を越えて利用可能：中国語の録音を入力すれば、同じ声で日本語、韓国語、その他の言語を発話できます。コード、重み、トレーニングデータはすべてオープンソースで、Apache-2.0ライセンス下で提供されています。アーキテクチャ面では、OmniVoiceは極めてシンプルな設計を採用しています。モデル全体は1つの双方向Transformerのみで構成され、テキストを直接複数のコードブック音声トークン（音声の離散的符号化）にマッピングします。セマンティックトークンから音声トークンへと移行する2段階のパイプラインは不要です。このシンプルな構造を支える2つの重要な設計は、全コードブックランダムマスキング戦略によるトレーニング効率の向上と、大規模言語モデルの事前学習パラメータを初期値として使用することで発音精度を向上させることです。推論速度はリアルタイムの40倍で、PyTorch上で直接実行可能であり、追加の最適化は不要です。トレーニングデータは50のオープンソース音声データセットから収集され、ノイズ除去と品質フィルタリングを経て合計58万時間に達しました。低リソース言語には動的アップサンプリングを適用し、トレーニング効果を確保しています。24言語でのテストでは、OmniVoiceの音声類似度と可聴性が複数の商用システムを上回りました。102言語でのテストでは、可聴性が実際の録音と同等、あるいはそれ以上であることが確認されました。トレーニングデータが10時間未満のマイナー言語でも合成が可能です。音声クローン以外にも、このモデルはテキストによる音色カスタマイズ（例：「男性、中年、極低音調」や「女性、青年、四川訛り」）、ノイズ入り参照音声の自動ノイズ除去、笑い声やため息などの感情記号の挿入、中国語・英語の多義語および固有名詞の発音修正もサポートしています。