مائیکروسافٹ اور زہجیانگ یونیورسٹی نے ورلڈ-R1 متعارف کرایا: تقویتی سیکھنے کے ذریعے ویڈیو ماڈلز میں 3D ایکسانیت

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
آن-چین خبریں: مائیکروسافٹ ریسرچ اور زہجیانگ یونیورسٹی نے 28 اپریل کو ورلڈ-R1 کا اعلان کیا، جو ایک تقویت سیکھنے کا طریقہ ہے جو ویڈیو ماڈلز کو 3D جیومیٹری کو 3D ڈیٹا سیٹس کے بغیر سمجھنے کی اجازت دیتا ہے۔ یہ سسٹم Depth Anything 3 کا استعمال کرتا ہے تاکہ 3D گاوسینز کو دوبارہ تعمیر کرے، پھر رینڈر کردہ مناظر کو اصل فوٹیج کے ساتھ موازنہ کرتا ہے۔ ایک انعام کا سگنل جو خطا، مسیر اور Qwen3-VL کی قابلیت پر مبنی ہے، Flow-GRPO کے ذریعے بہتر بنایا جاتا ہے۔ ماڈلز میں Wan 2.1 (1.3B اور 14B) شامل ہیں، جنہیں 3,000 Gemini جنریٹڈ پرامپٹس کے ساتھ تربیت دی گئی۔ ورلڈ-R1-Large نے PSNR میں 7.91dB کا بہتری لایا، اور ورلڈ-R1-Small نے 10.23dB کا بہتری لایا۔ کوڈ GitHub پر CC BY-NC-SA 4.0 کے تحت دستیاب ہے۔ ریئل ورلڈ اSETS (RWA) کی خبروں میں AI سے چلنے والے 3D ماڈلنگ میں اس ترقی کو اہمیت دی جاتی ہے۔

AIMPACT کی خبر، 28 اپریل (UTC+8)، Beating کی نگرانی کے مطابق، مائیکروسافٹ ریسرچ اور زہجیانگ یونیورسٹی کی ٹیم نے World-R1 پیش کیا ہے، جو تقویتی سیکھنے کے ذریعے متن سے ویڈیو بنانے والے ماڈل کو 3D جیومیٹری کی ہم آہنگی سکھاتا ہے، بغیر ماڈل کے آرکیٹیکچر میں تبدیلی کے اور 3D ڈیٹا سیٹ پر انحصار کے بغیر۔ مرکزی خیال: ویڈیو بنانے کے بعد، پہلے سے تربیت یافتہ 3D بنیادی ماڈل Depth Anything 3 کا استعمال کرتے ہوئے منظر کا 3D گاسین (3DGS) دوبارہ تشکیل دیا جاتا ہے، پھر نئے منظر سے رینڈر کیا جاتا ہے اور اصل ویڈیو کے ساتھ موازنہ کیا جاتا ہے، جس میں دوبارہ تشکیل کی غلطی، مسیر کا انحراف اور نئے منظر کی معنائی قابلِ قبولیت (جسے Qwen3-VL نے اسکور کیا ہے) کو ملا کر انعام کا سگنل بنایا جاتا ہے، اور اسے Flow-GRPO (ایک اسٹریم میچنگ ماڈل کے لیے مخصوص تقویتی سیکھنے کا الگورتھم) کے ذریعے ویڈیو ماڈل میں واپس بھیجا جاتا ہے۔ بنیادی ماڈل اوپن سورس万相 Wan 2.1 (1.3B اور 14B) ہے، جس سے World-R1-Small اور World-R1-Large تربیت دی گئیں۔ تربیت کے لیے صرف تقریباً 3000 صرف متن کے پرامپٹس استعمال ہوئے، جو Gemini نے تخلیق کیے، کسی بھی 3D اثاثہ کا استعمال نہیں کیا گيا۔ تربیت کے دوران ہر 100 قدم پر ایک "ڈائنامک فائن ٹننگ" شامل کی جاتی ہے، جس میں 3D انعام کو عارضی طور پر بند کر دیا جاتا ہے اور صرف ویڈیو کوالٹی انعام برقرار رکھا جاتا ہے، تاکہ ماڈل جسمانی حرکتوں جیسے غیر جامد حرکات کو دبانے سے بچ سکے۔ 3D ہم آہنگی کے معیار پر، World-R1-Large کا PSNR (پีک سنال نوائز ریشيو) بنیادी Wan 2.1 14B سے 7.91dB بڑھ گيا، جبکہ Small ورژن میں 10.23dB کا اضافہ ہوا۔ VBench عام ویڈیو کوالٹی مسلسل بڑھتی رہی۔ 25 افراد کے اندھیرے ٹيسٹ ميں، جيوميٹري هم آهنگي ميں فتح کي صدتي 92% تھي، اور مجموعي ترجيح 86% تھي۔ کوڈ GitHub پر اوپن سورس کر ديا گيا ہے، اجازت نامہ CC BY-NC-SA 4.0 ہے۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔