Odaily Planet Daily : Google DeepMind lance Gemini Robotics-ER 1.6, un modèle de raisonnement de haut niveau pour robots, qui présente une amélioration significative en matière de raisonnement spatial et de compréhension multivue par rapport à ses prédécesseurs ER 1.5 et Gemini 3.0 Flash. Le modèle est désormais accessible aux développeurs via l'API Gemini et Google AI Studio, avec trois améliorations principales :
1. Amélioration de la précision de pointage : utile pour la détection précise d'objets, le comptage, le raisonnement sur les relations spatiales (par exemple, « indiquez tous les objets pouvant être placés dans la tasse bleue ») et la planification de trajectoires, tout en rejetant correctement les pointages d'objets absents de l'image.
2. Détection réussie à partir de plusieurs angles : le robot peut désormais évaluer si une tâche est terminée en combinant les images de plusieurs caméras, tout en conservant une précision élevée même en cas d'obstruction ou dans des environnements dynamiques.
3. Ajout de la capacité de lecture des instruments : peut interpréter divers instruments industriels tels que des manomètres circulaires, des indicateurs de niveau vertical et des écrans numériques, en utilisant l'agentic vision (raisonnement visuel + exécution de code) pour un raisonnement progressif : d'abord zoomer sur les zones détaillées, puis pointer et calculer les proportions et les intervalles via du code, enfin déduire la lecture en combinant les connaissances du monde.
