Mensaje de ChainThink, 14 de abril: según el monitoreo de 1M AI News, Google DeepMind lanzó Gemini Robotics-ER 1.6, posicionado como un modelo de razonamiento de alto nivel para robots. Este modelo presenta mejoras significativas en razonamiento espacial y comprensión de múltiples perspectivas en comparación con sus predecesores ER 1.5 y Gemini 3.0 Flash, y ya está disponible para desarrolladores a través de la API de Gemini y Google AI Studio.
La actualización principal incluye tres capacidades: primero, mejora en la precisión de la indicación, que permite la detección precisa de objetos, conteo, razonamiento sobre relaciones espaciales y planificación de trayectorias de movimiento, además de rechazar correctamente la indicación de objetos que no existen en la imagen; segundo, detección exitosa desde múltiples ángulos, que permite evaluar el estado de finalización de la tarea combinando imágenes de varias cámaras, manteniendo precisión incluso en entornos con obstrucciones o dinámicos; tercero, nueva capacidad de lectura de instrumentos, que permite interpretar instrumentos industriales como manómetros circulares, indicadores de nivel vertical y pantallas digitales, mediante razonamiento progresivo con agentic vision.
La capacidad de lectura de este panel proviene de la colaboración entre DeepMind y Boston Dynamics. El mismo día, Boston Dynamics anunció que ha integrado Gemini y Gemini Robotics-ER 1.6 en el producto Orbit AIVI-Learning, lanzado el 8 de abril para todos los clientes de AIVI-Learning. Tras la integración, se añadió soporte para paneles, permitiendo que el robot cuadrúpedo Spot realice inspecciones autónomas en instalaciones industriales y lea datos de instrumentos como manómetros.
Boston Dynamics afirma que, gracias a la capacidad de razonamiento de Gemini, AIVI-Learning ha mejorado su rendimiento y precisión base en tareas como inspección visual, conteo de palets y detección de líquidos acumulados. DeepMind indica que ER 1.6 es su "modelo de robot más seguro", con una mayor adherencia a instrucciones de seguridad en tareas de razonamiento espacial adversarial en comparación con ER 1.5; en pruebas de identificación de riesgos de seguridad basadas en informes reales de lesiones, los modelos de la serie ER superan a Gemini 3.0 Flash en un 6% en escenarios de texto y un 10% en escenarios de video.
