Odaily Planet Daily: Google DeepMind випустила Gemini Robotics-ER 1.6, який позиціонується як моделю високого рівня міркувань для роботів, що значно покращує просторове міркування та розуміння з багатьох кутів порівняно з попередніми ER 1.5 та Gemini 3.0 Flash. Модель вже доступна для розробників через Gemini API та Google AI Studio, основні оновлення включають три нові можливості:
1. Покращена точність вказівки: може використовуватися для точного виявлення об’єктів, підрахунку, виведення просторових відношень (наприклад, «вкажіть на всі об’єкти, які можна помістити в синій стакан») та планування траєкторій руху, а також правильно відмовляється вказувати на об’єкти, яких немає на зображенні
2. Успішне виявлення з кількох кутів: робот тепер може аналізувати дані з кількох камер, щоб визначити, чи завдання виконано, і зберігати точність навіть при перешкодах або в динамічному середовищі
3. Додано можливість читання приладів: може інтерпретувати різні промислові прилади, такі як круглі манометри, вертикальні індикатори рівня та цифрові дисплеї, за допомогою agentic vision (візуальні міркування + виконання коду) для поступового міркування: спочатку збільшується детальна область, потім за допомогою вказівки та обчислення пропорцій та інтервалів у коді, нарешті — з використанням світових знань визначається показання
