Odaily Planet Daily melaporkan bahwa Google DeepMind meluncurkan Gemini Robotics-ER 1.6, yang dirancang sebagai model penalaran tingkat tinggi untuk robot, dengan peningkatan signifikan dalam penalaran spasial dan pemahaman multi-perspektif dibandingkan pendahulunya ER 1.5 dan Gemini 3.0 Flash. Model ini telah tersedia bagi pengembang melalui Gemini API dan Google AI Studio, dengan peningkatan utama mencakup tiga kemampuan:
1. Peningkatan akurasi penunjukan: dapat digunakan untuk deteksi objek yang tepat, penghitungan, penalaran hubungan spasial (seperti "tunjukkan semua objek yang bisa dimasukkan ke dalam cangkir biru"), dan perencanaan trajektori gerak, serta dapat menolak dengan benar penunjukan terhadap objek yang tidak ada dalam gambar
2. Deteksi keberhasilan multi-sudut: Robot sekarang dapat menggabungkan gambar dari beberapa kamera untuk menentukan apakah tugas telah selesai, tetap akurat bahkan dalam kondisi terhalang atau dinamis
3. Tambahkan kemampuan pembacaan instrumen: dapat membaca berbagai instrumen industri seperti meter tekanan melingkar, indikator tingkat cairan vertikal, dan layar digital, dengan menerapkan agentic vision (penalaran visual + eksekusi kode) untuk penalaran bertahap, terlebih dahulu memperbesar area detail, kemudian mengarahkan dan menghitung rasio serta interval melalui kode, serta akhirnya menggabungkan pengetahuan dunia untuk mendapatkan pembacaan
