माइक्रोसॉफ्ट और ज़ेजियांग विश्वविद्यालय ने वर्ल्ड-R1 पेश किया: रीइनफोर्समेंट लर्निंग के माध्यम से वीडियो मॉडल्स में 3D सुसंगठन

KuCoinFlash

रिलीज़ समय: 28/04/2026, 10:02:29

साझा करें

सारांश

ऑन-चेन समाचार: माइक्रोसॉफ्ट रिसर्च और ज़ेजियांग विश्वविद्यालय ने 28 अप्रैल को वर्ल्ड-आर-1 का अनावरण किया, जो एक प्रवर्धन अधिगम विधि है जो वीडियो मॉडल को 3D डेटासेट के बिना 3D ज्यामिति को समझने की अनुमति देती है। यह प्रणाली Depth Anything 3 का उपयोग करके 3D गॉसियन्स को पुनर्निर्मित करती है, फिर रेंडर किए गए दृश्यों की तुलना मूल फुटेज से करती है। त्रुटि, ट्रैजेक्टरी और Qwen3-VL विश्वसनीयता पर आधारित एक पुरस्कार संकेत Flow-GRPO के माध्यम से अनुकूलित किया जाता है। मॉडल में वान 2.1 (1.3B और 14B) शामिल हैं, जिन्हें 3,000 Gemini-जनित प्रॉम्प्ट्स के साथ प्रशिक्षित किया गया है। वर्ल्ड-आर-1-लार्ज ने PSNR में 7.91dB की सुधार किया, और वर्ल्ड-आर-1-स्मॉल ने 10.23dB की सुधार किया। कोड GitHub पर CC BY-NC-SA 4.0 के तहत उपलब्ध है। वास्तविक-दुनिया संपत्ति (RWA) समाचार इस AI-संचालित 3D मॉडलिंग में प्रगति को उजागर करते हैं।

AIMPACT संदेश, 28 अप्रैल (UTC+8), Beating द्वारा निगरानी के अनुसार, माइक्रोसॉफ्ट रिसर्च और जियांगसू विश्वविद्यालय की टीम ने World-R1 प्रस्तुत किया, जो रीइनफोर्समेंट लर्निंग का उपयोग करके टेक्स्ट-टू-वीडियो मॉडल को 3D ज्यामिति संगति सीखने के लिए प्रशिक्षित करता है, बिना मॉडल आर्किटेक्चर में कोई परिवर्तन किए और 3D डेटासेट पर निर्भर नहीं। मुख्य विचार: वीडियो उत्पन्न करने के बाद, प्री-ट्रेन्ड 3D बेस मॉडल Depth Anything 3 का उपयोग करके सीन के 3D गॉसियन (3DGS) का पुनर्निर्माण करें, फिर नए कोण से रेंडर करें और मूल वीडियो के साथ तुलना करें, फिर पुनर्निर्माण त्रुटि, ट्रैजेक्टरी विचलन और नए कोण की सेमेंटिक विश्वसनीयता (जिसे Qwen3-VL द्वारा स्कोर किया जाता है) को मिलाकर पुरस्कार संकेत बनाएं, और Flow-GRPO (एक प्रवाह मैचिंग मॉडल के लिए अनुकूलित रीइनफोर्समेंट लर्निंग एल्गोरिथम) के माध्यम से वीडियो मॉडल को प्रतिक्रिया दें। बेस मॉडल ओपन-सोर्स Wan 2.1 (1.3B और 14B) है, जिससे World-R1-Small और World-R1-Large क्रमशः प्रशिक्षित किए गए। प्रशिक्षण डेटा केवल ~3000 प्रम्प्ट हैं, जो Gemini द्वारा उत्पन्न किए गए हैं, कोई 3D संपत्ति का उपयोग नहीं किया गया। प्रशिक्षण के दौरान प्रति 100 स्टेप्स पर 'डायनामिक फाइन-ट्यूनिंग' सम्मिलित की जाती है, जहाँ 3D पुरस्कार को समयवधि के लिए बंद कर दिया जाता है और केवल क्वालिटी पुरस्कार ही संरक्षित रखा जाता है, ताकि मॉडल 3D सख्ती की प्राप्ति के लिए मानव हरकतों सहित गैर-सख्त गतिशीलता को संपीड़ित न करे। 3D संगति मापदंडों पर, World-R1-Large का PSNR (पीक सिग्नल-टू-नॉइज़ रेशो) Wan 2.1 14B से 7.91dB बढ़ा है, Small संस्करण में 10.23dB की वृद्धि हुई है। VBench सामान्य वीडियो क्वालिटी में कमी नहीं, बल्कि सुधार हुआ है। 25 लोगों के अंधे परीक्षण में, ज्यामिति संगति में 92% मतदान, समग्र पसंद 86%। कोड GitHub पर CC BY-NC-SA 4.0 लाइसेंस के साथ खुला हुआ है। (स्रोत: BlockBeats)

स्रोत:मूल दिखाएं

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।