أو ديلي: أطلقت جوجل ديب مايند Gemini Robotics-ER 1.6، المُصمم كنموذج استدلال عالي المستوى للروبوتات، مع تحسينات ملحوظة في الاستدلال المكاني وفهم الزوايا المتعددة مقارنة بالجيل السابق ER 1.5 وGemini 3.0 Flash. تم فتح النموذج للمطورين عبر Gemini API وGoogle AI Studio، وتشمل الترقيات الأساسية ثلاث قدرات:
1. تحسين دقة الإشارة (pointing): يمكن استخدامه للكشف الدقيق عن الأجسام، والعد، والاستدلال على العلاقات المكانية (مثل "أشر إلى جميع الأجسام التي يمكن وضعها في الكوب الأزرق") وتخطيط المسارات الحركية، كما يمكنه رفض الإشارة إلى الأجسام غير الموجودة في المشهد بشكل صحيح
2. كشف ناجح من زوايا متعددة: يمكن للروبوت الآن تقييم إكمال المهمة من خلال دمج لقطات من عدة كاميرات، مع الحفاظ على الدقة حتى في ظل التغطية أو البيئات الديناميكية
3. إضافة قدرة قراءة العدادات: يمكنها تفسير عدادات الضغط الدائرية، ومؤشرات مستوى السائل الرأسية، وشاشات العرض الرقمية، وغيرها من العدادات الصناعية، من خلال الرؤية الموجهة (الاستدلال البصري + تنفيذ الكود) لتحقيق استدلال تدريجي، أولاً بتكبير المناطق التفصيلية، ثم باستخدام الإشارة وحساب الكود لتحديد النسب والفترات، وأخيراً دمج المعرفة العالمية للحصول على القراءة
