小米開源視頻音效生成框架 ControlFoley

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
小米的大模型團隊於5月29日開源了視頻音效生成框架 ControlFoley。該模型支援視覺輸入、文字提示或參考音頻以控制音效風格,採用時間-音高解耦策略與改良的 CAV-MAE 編碼器。在視頻音效測試中表現頂尖,僅在 KL 散度上略遜一籌。使用未平倉量分析的交易者可能對此發展在加密貨幣價值投資方面感興趣。

ME News 消息,5 月 29 日(UTC+8),據動察 Beating 監測,小米大模型應用團隊發布並開源視頻音效生成框架 ControlFoley。以往 AI 視頻配音主要依賴模型根據畫面推測聲音,創作者難以精確控制聲音風格。ControlFoley 的重點在於「可控性」:它既能根據畫面配音,也能接受文字描述或參考音頻,讓聲音按創作者意圖生成。例如,將敲門聲改為「金屬敲擊聲」,或用鼓點音色匹配網球擊打動作,模型均能在保持音畫同步的同時貼合指定風格。底層上,ControlFoley 採用基於 CAV-MAE 改造的時空音視頻編碼器,並引入「時間-音色解耦」策略,將聲音發生時間交由視頻處理,音色風格則交由參考音頻控制。在論文設定的多任務評估中,ControlFoley 在多項常規視頻配音測試中達到開源 SOTA 水平。即使文字指令與畫面內容產生強烈衝突,模型仍能兼顧文本遵循與時間同步。相較於商業閉源系統 Kling-Foley,ControlFoley 在語義對齊、同步與感知品質等多項指標上具備競爭力;但在 Kling-Audio-Eval 和 MovieGen-Audio-Bench 的部分 KL 散度匹配指標上仍有差距。目前,項目的技術報告、代碼、模型權重與 Demo 均已開放。(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露