Microsoft et l'Université du Zhejiang présentent World-R1 : la cohérence 3D dans les modèles vidéo via l'apprentissage par renforcement

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Actualités sur la chaîne : Microsoft Research et l'Université de Zhejiang ont dévoilé World-R1 le 28 avril, une méthode d'apprentissage par renforcement permettant aux modèles vidéo de comprendre la géométrie 3D sans jeux de données 3D. Le système utilise Depth Anything 3 pour reconstruire des Gaussiens 3D, puis compare les vues rendues avec les vidéos d'origine. Un signal de récompense basé sur l'erreur, la trajectoire et la crédibilité de Qwen3-VL est optimisé via Flow-GRPO. Les modèles incluent Wan 2.1 (1,3 Go et 14 Go), formés avec 3 000 invites générées par Gemini. World-R1-Large a amélioré le PSNR de 7,91 dB, et World-R1-Small de 10,23 dB. Le code est disponible sur GitHub sous licence CC BY-NC-SA 4.0. Les actualités sur les actifs du monde réel (RWA) mettent en lumière cette avancée dans la modélisation 3D pilotée par l'IA.

Message AIMPACT, le 28 avril (UTC+8), selon le suivi de Beating, l'équipe du Microsoft Research et de l'Université de Zhejiang a proposé World-R1, une méthode utilisant l'apprentissage par renforcement pour permettre aux modèles de génération vidéo à partir de texte d'apprendre la cohérence géométrique 3D, sans modifier l'architecture du modèle ni dépendre d'ensembles de données 3D. L'idée centrale : après génération de la vidéo, utiliser le modèle 3D pré-entraîné Depth Anything 3 pour reconstruire les gaussiens 3D de la scène, puis rendre la scène sous un nouvel angle et la comparer à la vidéo d'origine. L'erreur de reconstruction, les écarts de trajectoire et la crédibilité sémantique sous un nouvel angle (évaluée par Qwen3-VL) sont combinés en un signal de récompense, qui est rétroalimenté au modèle vidéo via Flow-GRPO (un algorithme d'apprentissage par renforcement adapté aux modèles d'alignement de flux). Les modèles de base sont les versions open-source Wan 2.1 (1,3 Go et 14 Go), entraînées pour produire respectivement World-R1-Small et World-R1-Large. Les données d'entraînement ne comprennent que environ 3 000 invites textuelles pures, générées par Gemini, sans aucune ressource 3D. Pendant l'entraînement, une « micro-adaptation dynamique » est insérée tous les 100 pas : la récompense 3D est temporairement désactivée et seule la récompense de qualité visuelle est conservée, afin d'éviter que le modèle ne supprime les mouvements non rigides, comme les mouvements humains, pour privilégier la rigidité géométrique. En termes de cohérence 3D, le PSNR (rapport signal sur bruit maximal) de World-R1-Large est amélioré de 7,91 dB par rapport à Wan 2.1 14G, et celui de la version Small de 10,23 dB. La qualité vidéo globale selon VBench s'améliore même. Lors d'un test en aveugle mené par 25 personnes, la cohérence géométrique a remporté 92 % des votes et la préférence globale s'élève à 86 %. Le code est désormais disponible sur GitHub sous licence CC BY-NC-SA 4.0. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.