Ang Microsoft at ang Zhejiang University ay ipinakilala ang World-R1: 3D Consistency sa Video Models gamit ang Reinforcement Learning

KuCoinFlash

Oras ng Release: 04/28/2026, 10:02:29

I-share

Summary

On-chain news: Ipinakilala ng Microsoft Research at Zhejiang University ang World-R1 noong Abril 28, isang reinforcement learning method na nagpapahintulot sa video models na maunawaan ang 3D geometry nang walang 3D datasets. Gumagamit ang sistema ng Depth Anything 3 upang muling gawin ang 3D Gaussians, pagkatapos ay ihahambing ang mga rendered views sa orihinal na footage. Isang reward signal batay sa error, trajectory, at kredibilidad ng Qwen3-VL ay pinapabuti gamit ang Flow-GRPO. Ang mga model ay kasama ang Wan 2.1 (1.3B at 14B), na tinuturuan gamit ang 3,000 Gemini-generated prompts. Ang World-R1-Large ay nag-improve ng PSNR ng 7.91dB, at ang World-R1-Small ng 10.23dB. Ang code ay available sa GitHub sa ilalim ng CC BY-NC-SA 4.0. Ang mga balita tungkol sa real-world assets (RWA) ay nagpapakita ng pag-unlad na ito sa AI-driven 3D modeling.

Mensahe ng AIMPACT, Abril 28 (UTC+8), ayon sa pagmamasid ng Beating, ang team ng Microsoft Research at Zhejiang University ay nagmungkahi ng World-R1, na gumagamit ng reinforcement learning upang turuan ang text-to-video model na matutuhan ang 3D geometric consistency, nang hindi binabago ang model architecture at nang hindi nakasalalay sa 3D dataset. Pangunahing ideya: Pagkatapos mag-generate ng video, gamitin ang pre-trained 3D base model na Depth Anything 3 upang mabuo ang 3D Gaussian (3DGS) ng scene, pagkatapos ay i-render mula sa bagong pananaw at i-compare sa orihinal na video, at i-combine ang reconstruction error, trajectory deviation, at semantic plausibility ng bagong pananaw (na iskore ng Qwen3-VL) bilang reward signal, na ibinabalik sa video model sa pamamagitan ng Flow-GRPO (isang reinforcement learning algorithm na na-adapter para sa flow-matching model). Ang base model ay ang open-source na Wan 2.1 (1.3B at 14B), na nagresulta sa World-R1-Small at World-R1-Large. Ang training data ay lamang halos 3,000 na pure text prompts, na ginawa ng Gemini, at walang paggamit ng anumang 3D assets. Sa pagtatrabaho, isinasama ang isang “dynamic fine-tuning” bawat 100 steps, kung saan pansamantalang isasara ang 3D reward at tanging panatilihin ang quality reward upang maiwasan ang pagpapaliit ng non-rigid dynamics tulad ng paggalaw ng tao dahil sa paghahanap ng geometric rigidity. Sa mga 3D consistency metrics, ang PSNR (peak signal-to-noise ratio) ng World-R1-Large ay tumataas ng 7.91dB kumpara sa base Wan 2.1 14B, habang ang bersyon na Small ay tumataas ng 10.23dB. Ang VBench general video quality ay hindi bumababa, kundi lumalaki. Sa isang blind test na may 25 tao, ang panalo sa geometric consistency ay 92%, at ang overall preference ay 86%. Ang code ay nasa GitHub at may lisensya na CC BY-NC-SA 4.0. (Pinagkunan: BlockBeats)

Source:Ipakita ang original

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.