Xiaomi open-source le cadre de génération de sons vidéo ControlFoley

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
L'équipe des grands modèles de Xiaomi a open-sourcé le cadre de génération sonore vidéo ControlFoley le 29 mai. Le modèle prend en charge l'entrée visuelle, les invites textuelles ou l'audio de référence pour le contrôle du style sonore. Il utilise une stratégie de découplage temps-pitch et un encodeur CAV-MAE modifié. Ses performances sont parmi les meilleures dans les tests de son vidéo, bien qu'il soit légèrement en retard en termes de divergence KL. Les traders utilisant l'analyse de l'open interest pourraient trouver ce développement pertinent pour l'investissement de valeur dans la crypto.

Selon les nouvelles de ME, le 29 mai (UTC+8), selon le suivi de Beating, l'équipe d'applications de grands modèles de Xiaomi a publié et open-sourcé le cadre de génération d'effets sonores vidéo ControlFoley. Traditionnellement, la voix off pour les vidéos AI reposait sur la prédiction des sons par le modèle à partir des images, ce qui rendait difficile pour les créateurs de contrôler précisément le style sonore. L'accent de ControlFoley est mis sur la « contrôlabilité » : il peut non seulement synchroniser des sons avec les images, mais aussi accepter des descriptions textuelles ou des fichiers audio de référence pour générer des sons conformes à l'intention du créateur. Par exemple, il peut transformer le bruit d'une porte qui frappe en « bruit de frappe métallique » ou associer un son de tambour à un mouvement de frappe de tennis, tout en maintenant la synchronisation audio-visuelle et en respectant le style spécifié. En couche fondamentale, ControlFoley utilise un encodeur spatio-temporel audiovisuel modifié à partir de CAV-MAE et introduit une stratégie de « désaccouplage temps-coloris » : le moment de l'événement sonore est géré par la vidéo, tandis que le style sonore est déterminé par l'audio de référence. Dans les évaluations multi-tâches définies dans l'article, ControlFoley atteint un niveau SOTA parmi les solutions open source sur plusieurs tests classiques de doublage vidéo. Même en cas de forte contradiction entre les instructions textuelles et le contenu visuel, le modèle parvient à concilier la conformité au texte et la synchronisation temporelle. Comparé au système commercial fermé Kling-Foley, ControlFoley est compétitif sur plusieurs indicateurs tels que l'alignement sémantique, la synchronisation et la qualité perceptive ; toutefois, il présente encore un écart sur certains indicateurs de divergence KL dans Kling-Audio-Eval et MovieGen-Audio-Bench. Actuellement, le rapport technique, le code, les poids du modèle et la démonstration de ce projet sont tous accessibles au public. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.