Odaily Planet Daily tin: Google DeepMind đã phát hành Gemini Robotics-ER 1.6, được định vị là mô hình suy luận cấp cao cho robot, với sự cải thiện đáng kể về suy luận không gian và hiểu biết đa góc nhìn so với phiên bản tiền nhiệm ER 1.5 và Gemini 3.0 Flash. Mô hình đã được mở rộng cho các nhà phát triển thông qua Gemini API và Google AI Studio, với các nâng cấp cốt lõi bao gồm ba khả năng:
1. Cải thiện độ chính xác của việc chỉ điểm: Có thể được sử dụng để phát hiện vật thể chính xác, đếm, suy luận mối quan hệ không gian (ví dụ: "chỉ ra tất cả các vật thể có thể đặt vào cốc màu xanh dương") và lập kế hoạch quỹ đạo chuyển động, đồng thời từ chối chính xác việc chỉ vào các vật thể không tồn tại trong khung hình
2. Phát hiện thành công từ nhiều góc nhìn: Robot hiện có thể tổng hợp hình ảnh từ nhiều camera để xác định liệu nhiệm vụ đã hoàn thành hay chưa, ngay cả trong môi trường bị che khuất hoặc thay đổi động.
3. Thêm khả năng đọc đồng hồ: có thể đọc các loại đồng hồ công nghiệp như đồng hồ áp suất hình tròn, bộ chỉ báo mực chất lỏng theo chiều dọc và màn hình hiển thị số, thực hiện suy luận từng bước thông qua agentic vision (suy luận thị giác + thực thi mã), trước tiên phóng to các khu vực chi tiết, sau đó sử dụng chỉ dẫn và mã để tính toán tỷ lệ và khoảng cách, cuối cùng kết hợp kiến thức thực tế để xác định giá trị đọc.
