Согласно новости ME, 29 мая (UTC+8), по данным мониторинга Beating, команда по применению крупных моделей Xiaomi выпустила и открыла исходный код фреймворка для генерации звуковых эффектов в видео — ControlFoley. Ранее при автоматическом озвучивании видео ИИ основывался на предположениях о звуке на основе визуального контента, и создателям было сложно точно контролировать стиль звука. Основная особенность ControlFoley — «управляемость»: он может генерировать звук на основе изображений, а также принимать текстовые описания или эталонные аудиофайлы, чтобы звук точно соответствовал намерениям создателя. Например, можно заменить стук в дверь на «удар по металлу» или синхронизировать звук ударов по теннисному мячу с ритмом боя в барабаны — модель сохранит синхронизацию звука и изображения, одновременно точно соответствуя заданному стилю. В основе ControlFoley лежит пространственно-временной аудиовизуальный энкодер, модифицированный на базе CAV-MAE, а также стратегия «разделения времени и тембра»: время возникновения звука определяется видео, а стиль тембра — эталонным аудиофайлом. В многозадачной оценке, заданной в статье, ControlFoley достиг уровня SOTA среди открытых решений на нескольких стандартных тестах озвучивания видео. Даже при сильном противоречии между текстовой инструкцией и содержанием изображения модель сохраняет как соответствие тексту, так и временную синхронизацию. По сравнению с коммерческой закрытой системой Kling-Foley, ControlFoley демонстрирует конкурентоспособность по таким показателям, как семантическая согласованность, синхронизация и воспринимаемое качество; однако по некоторым метрикам KL-расхождения в Kling-Audio-Eval и MovieGen-Audio-Bench仍有差距. В настоящее время технический отчет, исходный код, веса модели и демо-версия проекта уже доступны. (Источник: BlockBeats)
Xiaomi открывает исходный код фреймворка для генерации звука к видео ControlFoley
KuCoinFlashПоделиться






Команда крупных моделей Xiaomi открыла исходный код фреймворка для генерации звука в видео ControlFoley 29 мая. Модель поддерживает визуальный ввод, текстовые запросы или эталонный аудиофайл для управления стилем звука. Она использует стратегию декуплирования времени и тональности, а также модифицированный энкодер CAV-MAE. Производительность находится на высшем уровне в тестах звука для видео, хотя немного уступает по KL-расхождению. Трейдеры, использующие анализ открытого интереса, могут найти это развитие актуальным для долгосрочных инвестиций в криптовалюты.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.