Odaily Planet Daily News: Google DeepMind выпустил Gemini Robotics-ER 1.6, позиционируемый как модель высокого уровня рассуждений для роботов, которая значительно улучшает пространственные рассуждения и понимание с нескольких точек зрения по сравнению с предыдущей версией ER 1.5 и Gemini 3.0 Flash. Модель уже доступна разработчикам через Gemini API и Google AI Studio; основные улучшения включают три новые возможности:
1. Улучшенная точность указания: может использоваться для точного обнаружения объектов, подсчета, пространственного вывода (например, «укажите все объекты, которые помещаются в синюю чашку») и планирования траекторий движения, а также корректно отклоняет указание на объекты, отсутствующие на изображении.
2. Успешное обнаружение с нескольких углов: робот теперь может определить, выполнена ли задача, на основе данных с нескольких камер, сохраняя точность даже при наличии препятствий или в динамической среде.
3. Добавлена возможность считывания показаний приборов: может интерпретировать различные промышленные приборы, включая круглые манометры, вертикальные индикаторы уровня и цифровые дисплеи, используя агентное зрение (визуальные рассуждения + выполнение кода) для пошагового анализа: сначала увеличивает области деталей, затем указывает и вычисляет пропорции и интервалы с помощью кода, и наконец, объединяет знания о мире для получения показаний.
