چین تھنک کی خبر، 16 اپریل، این بیٹنگ کی نگرانی کے مطابق، نوڈیا نے لائرا 2.0 اوپن سورس فریم ورک جاری کیا ہے، جو ایک منفرد تصویر سے دریافت کیے جانے والے 3D دنیا کو تخلیق کر سکتا ہے۔ صارفین ایک تصویر اپ لوڈ کرنے کے بعد، لائرا 2.0 پہلے لینز کے راستہ کے تحت کنٹرول شدہ ویڈیو تخلیق کرتا ہے، پھر اس ویڈیو کو 3D گوسین اسپلیٹس اور میش ماڈل میں دوبارہ تعمیر کرتا ہے، جسے ریئل ٹائم رینڈرنگ کے لیے گیم انجن اور سیمیولیٹرز میں براہ راست درآمد کیا جا سکتا ہے۔
ماس کے وزن اور کوڈ Apache 2.0 لائسنس کے تحت Hugging Face اور GitHub پر اوپن سورس ہیں، جس کی وجہ سے تجارتی استعمال کی اجازت ہے۔ اس کا بنیادی تقنویکی突破 لمبی فاصلے کے سفر کے دو تباہ کن مسائل کو حل کرنا ہے: پہلا "جگہ کا بھولنا"، جس میں Lyra 2.0 ہر فریم کے لیے 3D جیومیٹری معلومات کو محفوظ رکھ کر لینز کے واپس آنے پر منظر کے اگلے اور پیچھے کے حصوں کے درمیان عدم تطابق کو حل کرتا ہے؛ دوسرا "وقت کا بھٹکنا"، جس میں خود بہتر بنانے والی تربیت کے ذریعہ ماڈل غلطیوں کو درست کرنے کا طریقہ سیکھتا ہے، جس سے فریم بہ فریم ت tích ہونے والی غلطیوں کی وجہ سے منظر میں تبدیلی نہیں ہوتی۔ یہ فریم ورک بنیادی طور پر Wan 2.1-14B ڈفیوژن ٹرانسفارمر پر مبنی ہے، جس کا آؤٹ پٹ رزولوشن 832×480 ہے۔
Lyra 2.0 کا ایک مرکزی استعمال کا شعبہ روبوٹ کی شبیہ سازی ہے، جس میں نیوڈیا نے اپنے فزیکل سیمیولیٹر Isaac Sim میں اس کے تخلیق کردہ 3D مناظر درج کیے، جہاں روبوٹ ناوبری اور تعامل کر سکتے ہیں۔ پہلے جسمانی ذہانت کی تربیت کا ایک بڑا رکاوٹ 3D ماحول کی تخلیق کا اعلیٰ اخراج اور محدود تنوع تھا، جبکہ Lyra 2.0 تصاویر سے تربیتی ماحول کو بڑے پیمانے پر تخلیق کرنے کا راستہ فراہم کرتا ہے۔ گوگل کے ستمبر 2023 میں جاری کردہ Genie 3 کے مقابلے میں، جو اسی صلاحیت کو رکھتا ہے لیکن اوپن سورس نہیں ہے، Lyra 2.0 اس سمت میں موجودہ سب سے مکمل اوپن سورس حل ہے۔
