Ayon sa ME News, noong Mayo 29 (UTC+8), ayon sa pagmamasid ng Beating, ang team ng aplikasyon ng malaking model ni Xiaomi ay naglabas at isinara ang ControlFoley, isang framework para sa pagbuo ng audio para sa video. Noong nakaraan, ang pagbibigay ng audio sa AI video ay pangunahing batay sa paghula ng model sa mga imahe, kaya mahirap para sa mga tagagawa na kontrolin nang eksakto ang istilo ng tunog. Ang pangunahing layunin ng ControlFoley ay ang “kontrolabilidad”: ito ay maaaring magbigay ng audio batay sa imahe, o tumanggap ng teksto o reference audio upang mabuo ang tunog ayon sa intensyon ng tagagawa. Halimbawa, maaari itong baguhin ang tunog ng pagpapalo sa pinto bilang “tunog ng pagpapalo sa metal,” o gamitin ang tunog ng pagtugtog ng drum upang tugma sa galaw ng pagpapalo sa tennis, at ang model ay maaaring panatilihin ang sinkronisasyon ng audio at video habang sumusunod sa napiling istilo. Sa ilalim nito, ginagamit ng ControlFoley ang isang espasyo-kronolohikal na encoder para sa video at audio na batay sa CAV-MAE, kasama ang “time-timbre decoupling” na estratehiya, kung saan ibinibigay ang oras ng pagkakaroon ng tunog sa video, at ang istilo ng timbre sa reference audio. Sa mga multi-task evaluation na itinakda sa papel, natamo ng ControlFoley ang SOTA level sa open source sa maraming karaniwang pagsubok sa pagbibigay ng audio sa video. Kahit na may malakas na kakaibang ugnayan sa pagitan ng teksto at nilalaman ng imahe, nananatili pa rin ang model na sumusunod sa teksto at sinkronisado sa oras. Kumpara sa komersyal at saradong sistema na Kling-Foley, may kakayahang makipag-kaibigan ang ControlFoley sa mga indikador tulad ng semantic alignment, synchronization, at perceptual quality; subalit mayroon pa ring kaluwagan sa ilang KL divergence metrics sa Kling-Audio-Eval at MovieGen-Audio-Bench. Sa kasalukuyan, ang teknikal na ulat, code, model weights, at demo ng proyekto ay nasa publiko na. (Pinagmulan: BlockBeats)
Ibinabahagi ni Xiaomi ang open-source na framework para sa paggawa ng tunog sa video na ControlFoley
KuCoinFlashI-share






Ang team ng malaking modelo ni Xiaomi ay nag-open source ang video sound generation framework na ControlFoley noong Mayo 29. Ang modelo ay sumusuporta sa visual input, text prompts, o reference audio para sa pagkontrol ng sound style. Gumagamit ito ng time-pitch decoupling strategy at modified CAV-MAE encoder. Ang performance nito ay top-tier sa video sound tests, bagaman kaunting lag ang naranasan sa KL divergence. Maaaring makakatulong sa mga trader na gumagamit ng open interest analysis ang pag-unlad na ito para sa value investing sa crypto.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.