Notícia da ME, 29 de maio (UTC+8): De acordo com monitoramento da Beating, a equipe de aplicativos de grande modelo da Xiaomi lançou e abriu a fonte do framework de geração de efeitos sonoros para vídeos, chamado ControlFoley. Anteriormente, a dublagem de vídeos por IA baseava-se principalmente em modelos que inferiam sons com base nas imagens, tornando difícil para os criadores controlar precisamente o estilo sonoro. O foco do ControlFoley é a “controlabilidade”: ele pode gerar áudio com base nas imagens, mas também aceita descrições textuais ou áudios de referência, permitindo que os sons sejam gerados conforme a intenção do criador. Por exemplo, pode-se transformar o som de uma batida na porta em um “som de impacto metálico” ou adaptar o ritmo de bateria para corresponder ao movimento de uma tacada de tênis — o modelo consegue manter a sincronização áudio-visual enquanto adere ao estilo especificado. Em nível técnico, o ControlFoley utiliza um codificador espácio-temporal de áudio e vídeo modificado a partir do CAV-MAE e introduz uma estratégia de “desacoplamento tempo-timbre”, atribuindo o momento da ocorrência do som ao vídeo e o estilo timbrístico ao áudio de referência. Em avaliações multitarefa definidas no artigo, o ControlFoley atingiu o nível SOTA entre soluções abertas em diversos testes comuns de dublagem de vídeo. Mesmo quando há forte conflito entre instruções textuais e conteúdo visual, o modelo consegue equilibrar a adesão ao texto e a sincronização temporal. Em comparação com sistemas comerciais fechados como o Kling-Foley, o ControlFoley apresenta competitividade em múltiplos indicadores, como alinhamento semântico, sincronização e qualidade perceptiva; no entanto, ainda apresenta lacunas em alguns indicadores de divergência KL nos benchmarks Kling-Audio-Eval e MovieGen-Audio-Bench. Atualmente, o relatório técnico, o código, os pesos do modelo e a demonstração do projeto já estão disponíveis publicamente. (Fonte: BlockBeats)
Xiaomi abre o código do framework de geração de som para vídeo ControlFoley
KuCoinFlashCompartilhar






A equipe de modelos grandes da Xiaomi lançou em 29 de maio o framework de geração de som para vídeo ControlFoley como código aberto. O modelo suporta entrada visual, prompts de texto ou áudio de referência para controle do estilo sonoro. Utiliza uma estratégia de desacoplamento tempo-pitch e um codificador CAV-MAE modificado. O desempenho é de primeira linha em testes de som em vídeo, embora apresente ligeira defasagem na divergência KL. Traders que utilizam análise de open interest podem achar esse desenvolvimento relevante para investimento de valor em criptomoedas.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.