Xiaomi відкрила джерела рамки для генерації звуку до відео ControlFoley

ME News: 29 травня (UTC+8), за даними моніторингу Beating, команда з розробки великих моделей Xiaomi випустила та відкрила код фреймворку для генерації звукових ефектів для відео — ControlFoley. Раніше AI-дубляж відео здійснювався шляхом передбачення звуків на основі візуального контенту, і створювачам було важко точно керувати стилем звуку. Основна ідея ControlFoley — «керованість»: він може не лише автоматично синхронізувати звук із зображенням, але й приймати текстові описи або зразки аудіо, щоб генерувати звук точно відповідно до намірів створювача. Наприклад, можна замінити стук у двері на «удар по металу» або підібрати під удар по тенісному м’ячу ритм бубна — модель зберігатиме синхронізацію зображення та звуку, одночасно точно відтворюючи вказаний стиль. У базовому рівні ControlFoley використовує часовий аудіовізуальний кодек, модифікований на основі CAV-MAE, і застосовує стратегію «роз’єднання часу та кольору звуку»: час появи звуку визначається відео, а стиль — зразком аудіо. У багатозадачній оцінці, запропонованій у статті, ControlFoley досяг SOTA рівня серед відкритих рішень у кількох стандартних тестах дубляжу відео. Навіть при сильному конфлікті між текстовими інструкціями та вмістом зображення модель здатна поєднувати виконання тексту та часову синхронізацію. Порівняно з комерційними закритими системами, такими як Kling-Foley, ControlFoley демонструє конкурентоспроможні результати за критеріями семантичної збіжності, синхронізації та перцептивної якості; однак існують розбіжності у деяких показниках KL-розподілу на тестах Kling-Audio-Eval і MovieGen-Audio-Bench. Наразі технічний звіт, код, ваги моделей та демо-версія проекту вже доступні для всіх. (Джерело: BlockBeats)