Odaily 星球日報訊 谷歌 DeepMind 發布 Gemini Robotics-ER 1.6,定位為機器人的高層推理模型,相比前代 ER 1.5 和 Gemini 3.0 Flash 在空間推理和多視角理解上有顯著提升。模型已通過 Gemini API 和 Google AI Studio 向開發者開放,核心升級包括三項能力:
1. 指向(pointing)精度提升:可用於精確物體檢測、計數、空間關係推理(如 "指出所有能放進藍色杯子的物體")和運動軌跡規劃,並能正確拒絕指向畫面中不存在的物體
2. 多視角成功檢測:機器人現在能綜合多個攝像頭畫面判斷任務是否完成,即使在遮擋或動態環境下也能保持準確
3. 新增儀表讀取能力:可解讀圓形壓力錶、垂直液位指示器和數位顯示屏等多種工業儀表,透過 agentic vision(視覺推理 + 代碼執行)實現逐步推理,先放大細節區域,再透過指向和代碼計算比例與間隔,最後結合世界知識得出讀數
