Xiaomi open-source le cadre de génération de sons vidéo ControlFoley

Selon les nouvelles de ME, le 29 mai (UTC+8), selon le suivi de Beating, l'équipe d'applications de grands modèles de Xiaomi a publié et open-sourcé le cadre de génération d'effets sonores vidéo ControlFoley. Traditionnellement, la voix off pour les vidéos AI reposait sur la prédiction des sons par le modèle à partir des images, ce qui rendait difficile pour les créateurs de contrôler précisément le style sonore. L'accent de ControlFoley est mis sur la « contrôlabilité » : il peut non seulement synchroniser des sons avec les images, mais aussi accepter des descriptions textuelles ou des fichiers audio de référence pour générer des sons conformes à l'intention du créateur. Par exemple, il peut transformer le bruit d'une porte qui frappe en « bruit de frappe métallique » ou associer un son de tambour à un mouvement de frappe de tennis, tout en maintenant la synchronisation audio-visuelle et en respectant le style spécifié. En couche fondamentale, ControlFoley utilise un encodeur spatio-temporel audiovisuel modifié à partir de CAV-MAE et introduit une stratégie de « désaccouplage temps-coloris » : le moment de l'événement sonore est géré par la vidéo, tandis que le style sonore est déterminé par l'audio de référence. Dans les évaluations multi-tâches définies dans l'article, ControlFoley atteint un niveau SOTA parmi les solutions open source sur plusieurs tests classiques de doublage vidéo. Même en cas de forte contradiction entre les instructions textuelles et le contenu visuel, le modèle parvient à concilier la conformité au texte et la synchronisation temporelle. Comparé au système commercial fermé Kling-Foley, ControlFoley est compétitif sur plusieurs indicateurs tels que l'alignement sémantique, la synchronisation et la qualité perceptive ; toutefois, il présente encore un écart sur certains indicateurs de divergence KL dans Kling-Audio-Eval et MovieGen-Audio-Bench. Actuellement, le rapport technique, le code, les poids du modèle et la démonstration de ce projet sont tous accessibles au public. (Source : BlockBeats)