माइक्रोसॉफ्ट और ज़ेजियांग विश्वविद्यालय ने वर्ल्ड-R1 पेश किया: रीइनफोर्समेंट लर्निंग के माध्यम से वीडियो मॉडल्स में 3D सुसंगठन

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
ऑन-चेन समाचार: माइक्रोसॉफ्ट रिसर्च और ज़ेजियांग विश्वविद्यालय ने 28 अप्रैल को वर्ल्ड-आर-1 का अनावरण किया, जो एक प्रवर्धन अधिगम विधि है जो वीडियो मॉडल को 3D डेटासेट के बिना 3D ज्यामिति को समझने की अनुमति देती है। यह प्रणाली Depth Anything 3 का उपयोग करके 3D गॉसियन्स को पुनर्निर्मित करती है, फिर रेंडर किए गए दृश्यों की तुलना मूल फुटेज से करती है। त्रुटि, ट्रैजेक्टरी और Qwen3-VL विश्वसनीयता पर आधारित एक पुरस्कार संकेत Flow-GRPO के माध्यम से अनुकूलित किया जाता है। मॉडल में वान 2.1 (1.3B और 14B) शामिल हैं, जिन्हें 3,000 Gemini-जनित प्रॉम्प्ट्स के साथ प्रशिक्षित किया गया है। वर्ल्ड-आर-1-लार्ज ने PSNR में 7.91dB की सुधार किया, और वर्ल्ड-आर-1-स्मॉल ने 10.23dB की सुधार किया। कोड GitHub पर CC BY-NC-SA 4.0 के तहत उपलब्ध है। वास्तविक-दुनिया संपत्ति (RWA) समाचार इस AI-संचालित 3D मॉडलिंग में प्रगति को उजागर करते हैं।

AIMPACT संदेश, 28 अप्रैल (UTC+8), Beating द्वारा निगरानी के अनुसार, माइक्रोसॉफ्ट रिसर्च और जियांगसू विश्वविद्यालय की टीम ने World-R1 प्रस्तुत किया, जो रीइनफोर्समेंट लर्निंग का उपयोग करके टेक्स्ट-टू-वीडियो मॉडल को 3D ज्यामिति संगति सीखने के लिए प्रशिक्षित करता है, बिना मॉडल आर्किटेक्चर में कोई परिवर्तन किए और 3D डेटासेट पर निर्भर नहीं। मुख्य विचार: वीडियो उत्पन्न करने के बाद, प्री-ट्रेन्ड 3D बेस मॉडल Depth Anything 3 का उपयोग करके सीन के 3D गॉसियन (3DGS) का पुनर्निर्माण करें, फिर नए कोण से रेंडर करें और मूल वीडियो के साथ तुलना करें, फिर पुनर्निर्माण त्रुटि, ट्रैजेक्टरी विचलन और नए कोण की सेमेंटिक विश्वसनीयता (जिसे Qwen3-VL द्वारा स्कोर किया जाता है) को मिलाकर पुरस्कार संकेत बनाएं, और Flow-GRPO (एक प्रवाह मैचिंग मॉडल के लिए अनुकूलित रीइनफोर्समेंट लर्निंग एल्गोरिथम) के माध्यम से वीडियो मॉडल को प्रतिक्रिया दें। बेस मॉडल ओपन-सोर्स Wan 2.1 (1.3B और 14B) है, जिससे World-R1-Small और World-R1-Large क्रमशः प्रशिक्षित किए गए। प्रशिक्षण डेटा केवल ~3000 प्रम्प्ट हैं, जो Gemini द्वारा उत्पन्न किए गए हैं, कोई 3D संपत्ति का उपयोग नहीं किया गया। प्रशिक्षण के दौरान प्रति 100 स्टेप्स पर 'डायनामिक फाइन-ट्यूनिंग' सम्मिलित की जाती है, जहाँ 3D पुरस्कार को समयवधि के लिए बंद कर दिया जाता है और केवल क्वालिटी पुरस्कार ही संरक्षित रखा जाता है, ताकि मॉडल 3D सख्ती की प्राप्ति के लिए मानव हरकतों सहित गैर-सख्त गतिशीलता को संपीड़ित न करे। 3D संगति मापदंडों पर, World-R1-Large का PSNR (पीक सिग्नल-टू-नॉइज़ रेशो) Wan 2.1 14B से 7.91dB बढ़ा है, Small संस्करण में 10.23dB की वृद्धि हुई है। VBench सामान्य वीडियो क्वालिटी में कमी नहीं, बल्कि सुधार हुआ है। 25 लोगों के अंधे परीक्षण में, ज्यामिति संगति में 92% मतदान, समग्र पसंद 86%। कोड GitHub पर CC BY-NC-SA 4.0 लाइसेंस के साथ खुला हुआ है। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।