Nvidia acaba de lanzar lo que llama el primer modelo omniabierto construido específicamente para la inteligencia física. Cosmos 3, presentado el 31 de mayo, integra razonamiento, generación de mundos y capacidades de acción en un solo sistema diseñado para ayudar a los robots y vehículos autónomos a comprender realmente el mundo real, caótico e impredecible.
Cosmos 3 puede generar secuencias de video predictivas de hasta 30 segundos basadas en entradas de texto, imagen o video, permitiendo esencialmente que un robot "imagine" qué sucederá a continuación en su entorno antes de mover un solo actuador.
Lo que realmente hace Cosmos 3
Cosmos 3 utiliza lo que Nvidia llama una arquitectura Mixture of Transformers para procesar múltiples tipos de entrada simultáneamente. El modelo admite modalidades de sonido y acción, lo que significa que un robot equipado con Cosmos 3 puede procesar lo que ve, escucha y hace en un marco unificado.
La aplicación práctica se centra en algo llamado aprendizaje de políticas de robots. Cosmos 3 sirve como base para lo que Nvidia denomina Modelos de Acción Mundial, o WAM, que permiten a los agentes encarnados operar en entornos que nunca han experimentado antes.
Construyendo sobre una base establecida en 2025
Nvidia lanzó varias iteraciones anteriores durante 2025, incluyendo variantes enfocadas en predicción, aprendizaje por transferencia y razonamiento. Esos modelos anteriores ya atrajeron clientes serios.
Figure AI, la empresa de robótica humanoidal, adoptó la tecnología Cosmos para sus robots bípedos. Agility Robotics, otro participante en el ámbito de los humanoides, hizo lo mismo. En el lado de los vehículos autónomos, Uber, Waabi y Wayve aprovecharon versiones anteriores de Cosmos para sus esfuerzos de conducción autónoma.
Qué significa esto para los inversores y el mercado en general
Para la industria de la robótica en particular, la naturaleza abierta de Cosmos 3 podría acelerar la adopción entre actores más pequeños que carecen de los recursos para construir sus propios modelos de mundo desde cero. La generación de datos sintéticos, una de las capacidades principales del modelo, aborda lo que históricamente ha sido el mayor cuello de botella en el desarrollo de la robótica: obtener suficientes datos de entrenamiento del mundo real sin destruir hardware costoso en el proceso.

