ME News: 29 травня (UTC+8), за даними моніторингу Beating, команда з розробки великих моделей Xiaomi випустила та відкрила код фреймворку для генерації звукових ефектів для відео — ControlFoley. Раніше AI-дубляж відео здійснювався шляхом передбачення звуків на основі візуального контенту, і створювачам було важко точно керувати стилем звуку. Основна ідея ControlFoley — «керованість»: він може не лише автоматично синхронізувати звук із зображенням, але й приймати текстові описи або зразки аудіо, щоб генерувати звук точно відповідно до намірів створювача. Наприклад, можна замінити стук у двері на «удар по металу» або підібрати під удар по тенісному м’ячу ритм бубна — модель зберігатиме синхронізацію зображення та звуку, одночасно точно відтворюючи вказаний стиль. У базовому рівні ControlFoley використовує часовий аудіовізуальний кодек, модифікований на основі CAV-MAE, і застосовує стратегію «роз’єднання часу та кольору звуку»: час появи звуку визначається відео, а стиль — зразком аудіо. У багатозадачній оцінці, запропонованій у статті, ControlFoley досяг SOTA рівня серед відкритих рішень у кількох стандартних тестах дубляжу відео. Навіть при сильному конфлікті між текстовими інструкціями та вмістом зображення модель здатна поєднувати виконання тексту та часову синхронізацію. Порівняно з комерційними закритими системами, такими як Kling-Foley, ControlFoley демонструє конкурентоспроможні результати за критеріями семантичної збіжності, синхронізації та перцептивної якості; однак існують розбіжності у деяких показниках KL-розподілу на тестах Kling-Audio-Eval і MovieGen-Audio-Bench. Наразі технічний звіт, код, ваги моделей та демо-версія проекту вже доступні для всіх. (Джерело: BlockBeats)
Xiaomi відкрила джерела рамки для генерації звуку до відео ControlFoley
KuCoinFlashПоділитися






Команда великих моделей Xiaomi відкрила код фреймворку для генерації звуку з відео ControlFoley 29 травня. Модель підтримує візуальний вхід, текстові запити або еталонний аудіо для контролю стилю звуку. Вона використовує стратегію роз’єднання часу та тону та модифікований кодер CAV-MAE. У тестах звуку з відео її продуктивність на найвищому рівні, хоча трохи поступається за KL-розходженням. Трейдери, які використовують аналіз відкритого інтересу, можуть знайти цей розвиток актуальним для інвестування з оцінкою цінності у криптовалюті.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.