Xiaomi、ビデオ音声生成フレームワーク「ControlFoley」をオープンソース化

MEニュース：5月29日（UTC+8）、Beating監視によると、小米の大規模モデルアプリケーションチームが、動画音響生成フレームワーク「ControlFoley」をリリースし、オープンソース化しました。従来のAI動画ボイスオーバーは、モデルが映像に基づいて音声を推測する方式であり、クリエイターが音声スタイルを正確に制御するのは困難でした。ControlFoleyの特徴は「制御性」にあります。映像に合わせて音声を生成するだけでなく、テキストの説明や参考音声を受け入れることで、クリエイターの意図に沿った音声を生成できます。たとえば、ノック音を「金属の打撃音」に変更したり、テニスの打球動作にドラムの音色をマッチさせたりしても、モデルは音と映像の同期を保ちながら指定されたスタイルに準拠します。基盤技術としては、CAV-MAEを改造した時空間音声映像エンコーダーを採用し、「時間-音色デカップリング」戦略を導入。音声の発生タイミングは映像に、音色スタイルは参考音声に割り当てています。論文で設定されたマルチタスク評価において、ControlFoleyは複数の一般的な動画ボイスオーバーテストでオープンソース分野のSOTAレベルを達成しました。テキスト指示と映像内容が強い矛盾を生じた場合でも、テキストの準拠と時間同期の両立が可能です。商業的閉鎖型システムKling-Foleyと比較すると、ControlFoleyは意味的整合性、同期、知覚的品質などの複数の指標で競争力がありますが、Kling-Audio-EvalおよびMovieGen-Audio-Benchの一部のKLダイバージェンス一致指標ではまだ差があります。現在、本プロジェクトの技術レポート、コード、モデル重み、デモがすべて公開されています。（出典：BlockBeats）