Xiaomi abre o código do framework de geração de som para vídeo ControlFoley

Notícia da ME, 29 de maio (UTC+8): De acordo com monitoramento da Beating, a equipe de aplicativos de grande modelo da Xiaomi lançou e abriu a fonte do framework de geração de efeitos sonoros para vídeos, chamado ControlFoley. Anteriormente, a dublagem de vídeos por IA baseava-se principalmente em modelos que inferiam sons com base nas imagens, tornando difícil para os criadores controlar precisamente o estilo sonoro. O foco do ControlFoley é a “controlabilidade”: ele pode gerar áudio com base nas imagens, mas também aceita descrições textuais ou áudios de referência, permitindo que os sons sejam gerados conforme a intenção do criador. Por exemplo, pode-se transformar o som de uma batida na porta em um “som de impacto metálico” ou adaptar o ritmo de bateria para corresponder ao movimento de uma tacada de tênis — o modelo consegue manter a sincronização áudio-visual enquanto adere ao estilo especificado. Em nível técnico, o ControlFoley utiliza um codificador espácio-temporal de áudio e vídeo modificado a partir do CAV-MAE e introduz uma estratégia de “desacoplamento tempo-timbre”, atribuindo o momento da ocorrência do som ao vídeo e o estilo timbrístico ao áudio de referência. Em avaliações multitarefa definidas no artigo, o ControlFoley atingiu o nível SOTA entre soluções abertas em diversos testes comuns de dublagem de vídeo. Mesmo quando há forte conflito entre instruções textuais e conteúdo visual, o modelo consegue equilibrar a adesão ao texto e a sincronização temporal. Em comparação com sistemas comerciais fechados como o Kling-Foley, o ControlFoley apresenta competitividade em múltiplos indicadores, como alinhamento semântico, sincronização e qualidade perceptiva; no entanto, ainda apresenta lacunas em alguns indicadores de divergência KL nos benchmarks Kling-Audio-Eval e MovieGen-Audio-Bench. Atualmente, o relatório técnico, o código, os pesos do modelo e a demonstração do projeto já estão disponíveis publicamente. (Fonte: BlockBeats)