Odaily星球日报讯 Google DeepMind ने Gemini Robotics-ER 1.6 जारी किया है, जिसे रोबोट्स के लिए हाई-लेवल रीजनिंग मॉडल के रूप में स्थित किया गया है, जो पिछली पीढ़ी ER 1.5 और Gemini 3.0 Flash की तुलना में स्थानिक रीजनिंग और मल्टी-व्यू बुझने में महत्वपूर्ण सुधार करता है। मॉडल को अब Gemini API और Google AI Studio के माध्यम से डेवलपर्स के लिए उपलब्ध कराया गया है, जिसमें मुख्य अपग्रेड तीन क्षमताएँ शामिल हैं:
1. सटीकता में सुधार: सटीक वस्तु संसाधन, गिनती, स्थानिक संबंध तर्क (जैसे "सभी वस्तुओं को इंगित करें जो नीले कप में फिट हो सकती हैं") और गति योजना के लिए उपयोग किया जा सकता है, और चित्र में मौजूद नहीं होने वाली वस्तुओं को सही ढंग से अस्वीकार किया जा सकता है
2. बहु-दृष्टिकोण सफलता पहचान: रोबोट अब कई कैमरा फीड्स को एकीकृत करके यह निर्णय लेता है कि कार्य पूरा हुआ है या नहीं, भले ही आवरण या गतिशील परिस्थितियों में हो।
3. डैशबोर्ड पढ़ने की क्षमता जोड़ी गई: गोलाकार दबाव मीटर, ऊर्ध्वाधर तरल स्तर सूचक और डिजिटल डिस्प्ले जैसे विभिन्न औद्योगिक उपकरणों को पढ़ने की क्षमता, agentic vision (दृश्य तर्क + कोड निष्पादन) के माध्यम से कदम दर कदम तर्क करते हुए, पहले विस्तार से क्षेत्र को बड़ा करें, फिर संकेत और कोड के माध्यम से अनुपात और अंतराल की गणना करें, और अंत में विश्व ज्ञान का उपयोग करके पढ़ाई प्राप्त करें
