小米開源視頻音效生成框架 ControlFoley

ME News 消息，5 月 29 日（UTC+8），據動察 Beating 監測，小米大模型應用團隊發布並開源視頻音效生成框架 ControlFoley。以往 AI 視頻配音主要依賴模型根據畫面推測聲音，創作者難以精確控制聲音風格。ControlFoley 的重點在於「可控性」：它既能根據畫面配音，也能接受文字描述或參考音頻，讓聲音按創作者意圖生成。例如，將敲門聲改為「金屬敲擊聲」，或用鼓點音色匹配網球擊打動作，模型均能在保持音畫同步的同時貼合指定風格。底層上，ControlFoley 採用基於 CAV-MAE 改造的時空音視頻編碼器，並引入「時間-音色解耦」策略，將聲音發生時間交由視頻處理，音色風格則交由參考音頻控制。在論文設定的多任務評估中，ControlFoley 在多項常規視頻配音測試中達到開源 SOTA 水平。即使文字指令與畫面內容產生強烈衝突，模型仍能兼顧文本遵循與時間同步。相較於商業閉源系統 Kling-Foley，ControlFoley 在語義對齊、同步與感知品質等多項指標上具備競爭力；但在 Kling-Audio-Eval 和 MovieGen-Audio-Bench 的部分 KL 散度匹配指標上仍有差距。目前，項目的技術報告、代碼、模型權重與 Demo 均已開放。（來源：BlockBeats）