Odaily Planet Daily informa que Google DeepMind ha lanzado Gemini Robotics-ER 1.6, posicionado como un modelo de razonamiento de alto nivel para robots, con mejoras significativas en razonamiento espacial y comprensión de múltiples perspectivas en comparación con la versión anterior ER 1.5 y Gemini 3.0 Flash. El modelo ya está disponible para desarrolladores a través de la API de Gemini y Google AI Studio, con las siguientes actualizaciones principales:
1. Mejora de la precisión de apuntado: útil para detección precisa de objetos, conteo, razonamiento sobre relaciones espaciales (por ejemplo, "apunta a todos los objetos que caben en la taza azul") y planificación de trayectorias de movimiento, y puede rechazar correctamente apuntar a objetos que no existen en la imagen.
2. Detección exitosa desde múltiples perspectivas: el robot ahora puede evaluar si una tarea se ha completado combinando imágenes de varias cámaras, manteniendo precisión incluso en entornos con obstrucciones o dinámicos.
3. Nueva capacidad de lectura de instrumentos: puede interpretar diversos instrumentos industriales, como manómetros circulares, indicadores de nivel vertical y pantallas digitales, mediante agentic vision (razonamiento visual + ejecución de código) para realizar razonamiento paso a paso: primero amplía las áreas detalladas, luego utiliza apuntamiento y cálculo de código para determinar proporciones e intervalos, y finalmente combina conocimientos del mundo para obtener la lectura.
