Xiaomi открывает исходный код фреймворка для генерации звука к видео ControlFoley

Согласно новости ME, 29 мая (UTC+8), по данным мониторинга Beating, команда по применению крупных моделей Xiaomi выпустила и открыла исходный код фреймворка для генерации звуковых эффектов в видео — ControlFoley. Ранее при автоматическом озвучивании видео ИИ основывался на предположениях о звуке на основе визуального контента, и создателям было сложно точно контролировать стиль звука. Основная особенность ControlFoley — «управляемость»: он может генерировать звук на основе изображений, а также принимать текстовые описания или эталонные аудиофайлы, чтобы звук точно соответствовал намерениям создателя. Например, можно заменить стук в дверь на «удар по металлу» или синхронизировать звук ударов по теннисному мячу с ритмом боя в барабаны — модель сохранит синхронизацию звука и изображения, одновременно точно соответствуя заданному стилю. В основе ControlFoley лежит пространственно-временной аудиовизуальный энкодер, модифицированный на базе CAV-MAE, а также стратегия «разделения времени и тембра»: время возникновения звука определяется видео, а стиль тембра — эталонным аудиофайлом. В многозадачной оценке, заданной в статье, ControlFoley достиг уровня SOTA среди открытых решений на нескольких стандартных тестах озвучивания видео. Даже при сильном противоречии между текстовой инструкцией и содержанием изображения модель сохраняет как соответствие тексту, так и временную синхронизацию. По сравнению с коммерческой закрытой системой Kling-Foley, ControlFoley демонстрирует конкурентоспособность по таким показателям, как семантическая согласованность, синхронизация и воспринимаемое качество; однако по некоторым метрикам KL-расхождения в Kling-Audio-Eval и MovieGen-Audio-Bench仍有差距. В настоящее время технический отчет, исходный код, веса модели и демо-версия проекта уже доступны. (Источник: BlockBeats)