NVIDIA تُطلق Lyra 2.0 كمصدر مفتوح، وتُولّد عوالم ثلاثية الأبعاد قابلة للسير من صور فردية

رسالة ChainThink، 16 أبريل، وفقًا لمراقبة Beating، أطلقت NVIDIA إطار Lyra 2.0 مفتوح المصدر، والذي يمكنه إنشاء عوالم ثلاثية الأبعاد قابلة للاستكشاف من صورة واحدة. بعد رفع المستخدم لصورة، يقوم Lyra 2.0 أولاً بإنشاء فيديو تجوال خاضع لمسار الكاميرا، ثم يعيد بناء الفيديو كنماذج ثلاثية الأبعاد باستخدام تقنية "الانسكاب الغاوسي" (Gaussian Splats) ونماذج الشبكة، ويمكن استيرادها مباشرة إلى محركات الألعاب والمحاكيات للعرض في الوقت الحقيقي.

يتم توزيع أوزان النموذج والكود بموجب ترخيص Apache 2.0 على Hugging Face وGitHub، مع السماح باستخدامها تجاريًا. يكمن الإنجاز التقني الأساسي في حل مشكلتين من التدهور المرتبطين بالتنقل الطويل المدى: أولًا، "النسيان المكاني"، حيث يحل Lyra 2.0 مشكلة عدم اتساق المشهد عند عودة الكاميرا من خلال الحفاظ على معلومات هندسية ثلاثية الأبعاد لكل إطار؛ ثانيًا، "الانزياح الزمني"، من خلال التدريب الذاتي المُحسّن لتمكين النموذج من تصحيح الأخطاء ومنع تراكم الأخطاء بين الإطارات الذي يؤدي إلى تشوه المشهد. يستند هذا الإطار الأساسي إلى نموذج Diffusion Transformer Wan 2.1-14B، مع دقة إخراج قدرها 832×480.

إحدى التطبيقات الأساسية لـ Lyra 2.0 هي محاكاة الروبوتات، حيث قام نيفيديا باستيراد المشاهد ثلاثية الأبعاد التي أنشأها إلى محرك المحاكاة الفيزيائية الخاص به Isaac Sim، مما يسمح للروبوتات بأداء الملاحة والتفاعل داخلها. كان أحد أكبر العقبات في تدريب الذكاء المتجسد هو التكلفة العالية لإنشاء بيئات ثلاثية الأبعاد وتنوعها المحدود، وتوفر Lyra 2.0 مسارًا لإنشاء بيئات تدريب من صور دفعة واحدة. مقارنةً بإصدار Lyra 1.0 الذي تم إطلاقه في سبتمبر الماضي، فقد وسّع الإصدار 2.0 نطاق التوليد ليشمل الاستكشاف المستمر على مسافات طويلة؛ على الرغم من أن Genie 3 الذي أطلقته جوجل يمتلك قدرات مشابهة، إلا أنه لم يكن مفتوح المصدر، مما يجعل Lyra 2.0 أكمل حل مفتوح المصدر في هذا المجال حاليًا.