مايكروسوفت وجامعة تشيجيانغ تقدمان World-R1: الاتساق ثلاثي الأبعاد في نماذج الفيديو عبر التعلم المعزز

iconKuCoinFlash
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
أخبار على السلسلة: كشفت أبحاث مايكروسوفت وجامعة تشيجيانغ عن World-R1 في 28 أبريل، وهي طريقة تعلم معزز تمكن نماذج الفيديو من فهم الهندسة ثلاثية الأبعاد دون الحاجة إلى مجموعات بيانات ثلاثية الأبعاد. يستخدم النظام Depth Anything 3 لإعادة بناء غاوسينات ثلاثية الأبعاد، ثم يقارن المشاهد المُولَّدة بالتسجيلات الأصلية. يتم تحسين إشارة المكافأة المستندة إلى الخطأ، والمسار، ومصداقية Qwen3-VL عبر Flow-GRPO. تشمل النماذج Wan 2.1 (1.3B و14B)، والتي تم تدريبها باستخدام 3,000 مطالبة مولدة بواسطة Gemini. وتحسّن World-R1-Large في PSNR بمقدار 7.91 ديسيبل، وWorld-R1-Small بمقدار 10.23 ديسيبل. الكود متاح على GitHub بموجب ترخيص CC BY-NC-SA 4.0. تبرز أخبار الأصول الواقعية (RWA) هذا التقدم في النمذجة ثلاثية الأبعاد المدعومة بالذكاء الاصطناعي.

رسالة AIMPACT، 28 أبريل (UTC+8)، وفقًا لمراقبة Beating، اقترح فريق من معهد مايكروسوفت للبحث وجامعة تشيجيانغ World-R1، وهو نموذج يستخدم التعلم المعزز لتمكين نماذج توليد الفيديو من النص من تحقيق الاتساق الهندسي ثلاثي الأبعاد دون تعديل بنية النموذج أو الاعتماد على مجموعات بيانات ثلاثية الأبعاد. الفكرة الأساسية: بعد توليد الفيديو، يتم إعادة بناء غاوسيات ثلاثية الأبعاد للمشهد باستخدام نموذج أساسي ثلاثي الأبعاد مُدرَّب مسبقًا يُدعى Depth Anything 3، ثم يتم توليد مشاهد من زوايا جديدة ومقارنتها بالفيديو الأصلي، حيث يتم دمج خطأ إعادة البناء، وانحراف المسار، وموثوقية الدلالات من الزوايا الجديدة (التي تُقيّم بواسطة Qwen3-VL) لتشكيل إشارة مكافأة، والتي تُستخدم لإرجاع التغذية الراجعة إلى نموذج الفيديو عبر خوارزمية Flow-GRPO (خوارزمية تعلم معزز مُعدّلة لنماذج مطابقة التدفق). النموذج الأساسي هو Wan 2.1 المفتوح المصدر (1.3B و14B)، والذي تم تدريبه لإنتاج World-R1-Small وWorld-R1-Large. تم استخدام حوالي 3000 مطالبة نصية فقط كبيانات تدريب، تم إنشاؤها بواسطة Gemini، دون استخدام أي موارد ثلاثية الأبعاد. أثناء التدريب، يتم إدراج جولة من "الضبط الدقيق الديناميكي" كل 100 خطوة، حيث يتم تعطيل مكافأة الثلاثي الأبعاد مؤقتًا والاحتفاظ بمكافأة جودة الصورة فقط، لمنع النموذج من قمع الحركات غير الصلبة مثل حركة الشخصيات من أجل تحقيق صلابة هندسية. على مؤشرات الاتساق الثلاثي الأبعاد، تحسّن World-R1-Large في PSNR (نسبة الإشارة إلى الضوضاء الذروية) بنسبة 7.91 ديسيبل مقارنة بـ Wan 2.1 14B الأساسي، بينما تحسّن النسخة الصغيرة بنسبة 10.23 ديسيبل. جودة الفيديو العامة على VBench لم تنخفض بل ارتفعت. في اختبار عشوائي أجرته 25 شخصًا، حقق الاتساق الهندسي فوزًا بنسبة 92%، مع تفضيل عام بنسبة 86%. تم نشر الكود على GitHub تحت رخصة CC BY-NC-SA 4.0. (المصدر: BlockBeats)

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.