MEニュース:5月29日(UTC+8)、Beating監視によると、小米の大規模モデルアプリケーションチームが、動画音響生成フレームワーク「ControlFoley」をリリースし、オープンソース化しました。従来のAI動画ボイスオーバーは、モデルが映像に基づいて音声を推測する方式であり、クリエイターが音声スタイルを正確に制御するのは困難でした。ControlFoleyの特徴は「制御性」にあります。映像に合わせて音声を生成するだけでなく、テキストの説明や参考音声を受け入れることで、クリエイターの意図に沿った音声を生成できます。たとえば、ノック音を「金属の打撃音」に変更したり、テニスの打球動作にドラムの音色をマッチさせたりしても、モデルは音と映像の同期を保ちながら指定されたスタイルに準拠します。基盤技術としては、CAV-MAEを改造した時空間音声映像エンコーダーを採用し、「時間-音色デカップリング」戦略を導入。音声の発生タイミングは映像に、音色スタイルは参考音声に割り当てています。論文で設定されたマルチタスク評価において、ControlFoleyは複数の一般的な動画ボイスオーバーテストでオープンソース分野のSOTAレベルを達成しました。テキスト指示と映像内容が強い矛盾を生じた場合でも、テキストの準拠と時間同期の両立が可能です。商業的閉鎖型システムKling-Foleyと比較すると、ControlFoleyは意味的整合性、同期、知覚的品質などの複数の指標で競争力がありますが、Kling-Audio-EvalおよびMovieGen-Audio-Benchの一部のKLダイバージェンス一致指標ではまだ差があります。現在、本プロジェクトの技術レポート、コード、モデル重み、デモがすべて公開されています。(出典:BlockBeats)
Xiaomi、ビデオ音声生成フレームワーク「ControlFoley」をオープンソース化
KuCoinFlash共有






小米の大型モデルチームは5月29日、ビデオ音声生成フレームワークControlFoleyをオープンソース化しました。このモデルは、視覚入力、テキストプロンプト、または参照音声を用いて音声スタイルを制御できます。時間とピッチの分離戦略と改良されたCAV-MAEエンコーダーを採用しています。ビデオ音声テストではトップクラスの性能を発揮していますが、KLダイバージェンスではやや劣ります。オープンインタレスト分析を使用するトレーダーにとっては、この開発が暗号資産のバリュー投資に役立つ可能性があります。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。