মাইক্রোসফট এবং জেজিয়াং বিশ্ববিদ্যালয় ওয়ার্ল্ড-আর১ চালু করেছে: শক্তিশালী শিক্ষার মাধ্যমে ভিডিও মডেলে 3D সামঞ্জস্যতা

AIMPACT বার্তা, 28 এপ্রিল (UTC+8), Beating দ্বারা পর্যবেক্ষিত, মাইক্রোসফট রিসার্চ এবং জিয়াংসু বিশ্ববিদ্যালয়ের দল ওয়ার্ল্ড-আর-1 প্রস্তাব করেছে, যা রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে টেক্সট-টু-ভিডিও মডেলকে 3D জ্যামিতিক সামঞ্জস্যতা শেখায়, মডেল আর্কিটেকচার পরিবর্তন করা বা 3D ডেটাসেটের উপর নির্ভরশীল হওয়ার প্রয়োজন ছাড়াই। মূল ধারণা: ভিডিও তৈরির পরে, প্রি-ট্রেনড 3D বেসমডেল Depth Anything 3 ব্যবহার করে দৃশ্যের 3D গাউসিয়ান (3DGS) পুনর্গঠন করুন, তারপর নতুন দৃষ্টিকোণ থেকে রেন্ডার করুন এবং মূল ভিডিওর সাথে তুলনা করুন, 3DGS-এর পুনর্গঠনের ত্রুটি, ট্রেজেক্টরি বিচ্যুতি এবং নতুন দৃষ্টিকোণের সেমান্টিক্স-বান্ধবতা (যা Qwen3-VL দ্বারা স্কোর করা হয়) একত্রিত করে পুরস্কার সংকেত তৈরি করুন, এবং Flow-GRPO (একটি ফ্লো-ম্যাচিং মডেলের জন্য অপটিমাইজড রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম) এর মাধ্যমে এই পুরস্কারটি ভিডিও মডেলকে ফিডব্যাক হিসেবে পাঠান। 1.3B এবং 14B-এর 2টি সংস্করণসহ, Open Source Wan 2.1-কে 3D-ভিত্তিক 3000টি-এরও কম, Gemini-দ্বারা উৎপাদিত, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম্পদযুক্ত, pure-text prompt-এর 3000টি-এরও কম, 3D-অসম्पদযুক्त, pure-text prompt–एर ओ कम। प्रशिक्षण के दौरान प्रत्येक 100 चरणों के बाद एक "डायनामिक फाइनट्यूनिंग" चरण शामिल किया जाता है जिसमें अस्थायी रूप से डीप्थ पुरस्कार को बंद कर दिया जाता है और केवल क्वालिटी पुरस्कार को बनाए रखा जाता है ताकि मॉडल ज्यामितीय कठोरता के लिए मानव गति जैसी अनियमित गतिशीलता को दबा न दे। World-R1-Large के PSNR (Peak Signal-to-Noi Ratio) में Wan2.1 (14B) की तुलना में सुधार हुआ है: Small संस्करण में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रति संख्या में सुधार हुआ है: VBench सामान्य वीडियो क्वालिटी में कोई कमी नहीं हुई है। प्रत