Odaily Planet Daily News: Google DeepMind lançou o Gemini Robotics-ER 1.6, posicionado como um modelo de raciocínio de alto nível para robôs, com melhorias significativas em raciocínio espacial e compreensão de múltiplas perspectivas em comparação com as versões anteriores ER 1.5 e Gemini 3.0 Flash. O modelo já está disponível para desenvolvedores por meio da Gemini API e do Google AI Studio, com principais atualizações incluindo três novas capacidades:
1. Melhoria na precisão de apontamento: útil para detecção precisa de objetos, contagem, raciocínio sobre relações espaciais (como "apontar todos os objetos que cabem no copo azul") e planejamento de trajetórias de movimento, além de rejeitar corretamente apontamentos para objetos que não existem na cena.
2. Detecção bem-sucedida de múltiplos ângulos: o robô agora pode avaliar se a tarefa foi concluída combinando imagens de várias câmeras, mantendo precisão mesmo em ambientes obstruídos ou dinâmicos
3. Nova capacidade de leitura de instrumentos: capaz de interpretar diversos instrumentos industriais, como manômetros circulares, indicadores de nível vertical e displays digitais, utilizando agentic vision (raciocínio visual + execução de código) para raciocínio passo a passo: primeiro amplia as áreas de detalhe, depois aponta e calcula proporções e intervalos por meio de código, e finalmente combina conhecimento do mundo para obter a leitura.
