أطلقت Nvidia للتو ما تسميه أول نموذج مفتوح متكامل مصمم خصيصًا للذكاء الفيزيائي. كوزموس 3، الذي كُشف عنه في 31 مايو، يدمج القدرة على التفكير، وتوليد العالم، والإجراءات في نظام واحد مصمم لمساعدة الروبوتات والمركبات ذاتية القيادة على فهم العالم الحقيقي الفوضوي وغير المتوقع حقًا.
يمكن لـ Cosmos 3 توليد سلاسل فيديو تنبؤية تصل إلى 30 ثانية بناءً على مدخلات نصية أو صور أو فيديو، مما يسمح للروبوت "تخيل" ما سيحدث التالي في بيئته قبل تحريك أي مُفعّل.
ما الذي يفعله Cosmos 3 فعليًا
يستخدم Cosmos 3 بنية تُسمّيها Nvidia "مزيج من المحولات" لمعالجة أنواع متعددة من المدخلات في وقت واحد. يدعم النموذج وحدات الصوت والحركة، مما يعني أن الروبوت المزود بـ Cosmos 3 يمكنه معالجة ما يراه، ويسمعه، ويفعله في إطار موحد.
يركز التطبيق العملي على شيء يُسمى تعلم سياسة الروبوت. يعمل Cosmos 3 كهيكل أساسي لما تسميه نفيديا نماذج العمل العالمية، أو WAMs، والتي تسمح للوكلاء المتجسدين بالعمل عبر بيئات لم يسبق لهم مواجهتها من قبل.
البناء على أساس وُضع في 2025
أطلقت Nvidia عدة إصدارات سابقة على مدار عام 2025، بما في ذلك إصدارات مركزة على التنبؤ والتعلم بالنقل والاستدلال. وجذبت هذه النماذج السابقة بالفعل عملاء جادين.
شركة Figure AI، المتخصصة في الروبوتات البشرية الشكل، اعتمدت تقنية Cosmos لروبوتاتها الثنائية الساقين. وفعلت نفس الشيء شركة Agility Robotics، لاعب آخر في مجال الروبوتات البشرية الشكل. وفي جانب المركبات ذاتية القيادة، استخدمت Uber وWaabi وWayve إصدارات سابقة من Cosmos في جهودها للقيادة الذاتية.
ما يعنيه ذلك للمستثمرين والسوق الأوسع
بالنسبة لصناعة الروبوتات على وجه التحديد، يمكن أن يُسرّع الطابع المفتوح لـ Cosmos 3 من التبني بين اللاعبين الأصغر حجمًا الذين يفتقرون إلى الموارد اللازمة لبناء نماذج عالمهم الخاصة من الصفر. إن توليد البيانات الاصطناعية، وهو أحد القدرات الأساسية للنموذج، يعالج ما كان يُعدّ على الدوام أكبر عقبة في تطوير الروبوتات: الحصول على كمية كافية من بيانات التدريب الواقعية دون تدمير المعدات باهظة الثمن في العملية.

