Ibinabahagi ni Xiaomi ang open-source na framework para sa paggawa ng tunog sa video na ControlFoley

Ayon sa ME News, noong Mayo 29 (UTC+8), ayon sa pagmamasid ng Beating, ang team ng aplikasyon ng malaking model ni Xiaomi ay naglabas at isinara ang ControlFoley, isang framework para sa pagbuo ng audio para sa video. Noong nakaraan, ang pagbibigay ng audio sa AI video ay pangunahing batay sa paghula ng model sa mga imahe, kaya mahirap para sa mga tagagawa na kontrolin nang eksakto ang istilo ng tunog. Ang pangunahing layunin ng ControlFoley ay ang “kontrolabilidad”: ito ay maaaring magbigay ng audio batay sa imahe, o tumanggap ng teksto o reference audio upang mabuo ang tunog ayon sa intensyon ng tagagawa. Halimbawa, maaari itong baguhin ang tunog ng pagpapalo sa pinto bilang “tunog ng pagpapalo sa metal,” o gamitin ang tunog ng pagtugtog ng drum upang tugma sa galaw ng pagpapalo sa tennis, at ang model ay maaaring panatilihin ang sinkronisasyon ng audio at video habang sumusunod sa napiling istilo. Sa ilalim nito, ginagamit ng ControlFoley ang isang espasyo-kronolohikal na encoder para sa video at audio na batay sa CAV-MAE, kasama ang “time-timbre decoupling” na estratehiya, kung saan ibinibigay ang oras ng pagkakaroon ng tunog sa video, at ang istilo ng timbre sa reference audio. Sa mga multi-task evaluation na itinakda sa papel, natamo ng ControlFoley ang SOTA level sa open source sa maraming karaniwang pagsubok sa pagbibigay ng audio sa video. Kahit na may malakas na kakaibang ugnayan sa pagitan ng teksto at nilalaman ng imahe, nananatili pa rin ang model na sumusunod sa teksto at sinkronisado sa oras. Kumpara sa komersyal at saradong sistema na Kling-Foley, may kakayahang makipag-kaibigan ang ControlFoley sa mga indikador tulad ng semantic alignment, synchronization, at perceptual quality; subalit mayroon pa ring kaluwagan sa ilang KL divergence metrics sa Kling-Audio-Eval at MovieGen-Audio-Bench. Sa kasalukuyan, ang teknikal na ulat, code, model weights, at demo ng proyekto ay nasa publiko na. (Pinagmulan: BlockBeats)