Odaily Planet Daily รายงานว่า Google DeepMind เปิดตัว Gemini Robotics-ER 1.6 ซึ่งถูกกำหนดให้เป็นโมเดลการให้เหตุผลระดับสูงสำหรับหุ่นยนต์ โดยมีการปรับปรุงอย่างมีนัยสำคัญในด้านการให้เหตุผลเชิงพื้นที่และการเข้าใจมุมมองหลายมุมเมื่อเทียบกับรุ่นก่อนหน้า ER 1.5 และ Gemini 3.0 Flash โมเดลดังกล่าวได้เปิดให้นักพัฒนาเข้าถึงผ่าน Gemini API และ Google AI Studio โดยการอัปเกรดหลักประกอบด้วยความสามารถสามประการ:
1. ความแม่นยำในการชี้นำ (pointing) ที่ดีขึ้น: เหมาะสำหรับการตรวจจับวัตถุอย่างแม่นยำ การนับ การให้เหตุผลเกี่ยวกับความสัมพันธ์เชิงพื้นที่ (เช่น "ชี้วัตถุทั้งหมดที่สามารถใส่ลงในถ้วยสีฟ้า") และการวางแผนเส้นทางการเคลื่อนไหว พร้อมปฏิเสธการชี้ไปยังวัตถุที่ไม่มีอยู่ในภาพอย่างถูกต้อง
2. การตรวจจับความสำเร็จจากมุมมองหลายมุม: หุ่นยนต์ตอนนี้สามารถรวมข้อมูลจากกล้องหลายตัวเพื่อตัดสินว่าภารกิจเสร็จสิ้นหรือไม่ แม้ในสภาพที่มีสิ่งกีดขวางหรือสภาพแวดล้อมที่เปลี่ยนแปลงก็ยังคงแม่นยำ
3. เพิ่มความสามารถในการอ่านค่าจากแผงวัด: สามารถอ่านค่าจากมาตรวัดวงกลม, ตัวชี้ระดับของเหลวแบบตั้งตรง, และหน้าจอแสดงผลดิจิทัล ฯลฯ ผ่าน agentic vision (การให้เหตุผลด้วยภาพ + การดำเนินการรหัส) เพื่อให้เกิดการให้เหตุผลแบบขั้นตอน: ก่อนขยายพื้นที่รายละเอียด, จากนั้นชี้ไปยังจุดและคำนวณสัดส่วนและช่องว่างด้วยรหัส, สุดท้ายรวมความรู้จากโลกจริงเพื่อสรุปค่าที่อ่านได้
