Odaily星球日報によると、Google DeepMindは、ロボットの高次推論モデルであるGemini Robotics-ER 1.6をリリースしました。前世代のER 1.5およびGemini 3.0 Flashと比較して、空間推論とマルチビュー理解において顕著な向上が図られています。このモデルは、Gemini APIおよびGoogle AI Studioを通じて開発者に公開されており、主なアップグレードは以下の3つの機能です:
1. 指向精度の向上:正確な物体検出、カウント、空間関係の推論(例:「青いカップに収まるすべての物体を指し示す」)および運動経路計画に使用でき、画像内に存在しない物体への指向を正しく拒否できます。
2. 多視点成功検出:ロボットは、遮蔽や動的環境下でも正確にタスクの完了を判断できるよう、複数のカメラ映像を統合して分析できるようになりました。
3. メーター読み取り機能の追加:円形圧力計、垂直液位インジケーター、デジタルディスプレイなど、さまざまな産業用メーターを解読。agentic vision(視覚的推論+コード実行)を用いて段階的に推論し、まず詳細領域を拡大、次に指差しとコードによる比率・間隔の計算を行い、最後に世界知識を組み合わせて読み取り値を導出します。
