Odaily Planet Daily melaporkan Google DeepMind telah melancarkan Gemini Robotics-ER 1.6, yang dikenal sebagai model penalaran tingkat tinggi untuk robot, dengan peningkatan signifikan dalam penalaran ruang dan pemahaman multi-perspektif dibandingkan generasi sebelumnya ER 1.5 dan Gemini 3.0 Flash. Model ini kini tersedia untuk pengembang melalui Gemini API dan Google AI Studio, dengan peningkatan utama mencakup tiga kemampuan:
1. Peningkatan ketepatan penunjukan: boleh digunakan untuk pengesanan objek yang tepat, pengiraan, penalaran hubungan ruang (seperti "tunjukkan semua objek yang boleh dimasukkan ke dalam cawan biru") dan perancangan trajektori pergerakan, serta dapat menolak dengan betul penunjukan terhadap objek yang tidak wujud dalam gambar.
2. Pemeriksaan berjaya dari pelbagai sudut: Robot kini mampu menggabungkan gambar dari beberapa kamera untuk menentukan sama ada tugas telah selesai, dan tetap akurat walaupun dalam keadaan terhalang atau dinamik
3. Tambahkan kemampuan bacaan instrumen: mampu membaca instrumen industri pelbagai seperti meter tekanan bulat, penunjuk paras menegak, dan skrin digital, melalui agentic vision (penalaran visual + pelaksanaan kod) untuk penalaran bertahap, iaitu memperbesar kawasan butiran terlebih dahulu, kemudian menunjuk dan mengira nisbah serta jarak melalui kod, akhirnya menggabungkan pengetahuan dunia untuk mendapatkan bacaan
