A Nvidia acabou de lançar o que chama de primeiro modelo aberto omni construído especificamente para IA física. O Cosmos 3, apresentado em 31 de maio, integra raciocínio, geração de mundo e capacidades de ação em um único sistema projetado para ajudar robôs e veículos autônomos a entender realmente o mundo real caótico e imprevisível.
O Cosmos 3 pode gerar sequências de vídeo preditivas de até 30 segundos com base em entradas de texto, imagem ou vídeo, permitindo essencialmente que um robô "imagine" o que acontecerá a seguir em seu ambiente antes de mover qualquer atuador.
O que o Cosmos 3 realmente faz
O Cosmos 3 utiliza o que a Nvidia chama de arquitetura Mixture of Transformers para processar vários tipos de entrada simultaneamente. O modelo suporta modalidades de som e ação, o que significa que um robô equipado com o Cosmos 3 pode processar o que vê, ouve e faz em um único framework.
A aplicação prática centra-se em algo chamado aprendizado de política de robôs. O Cosmos 3 serve como base para o que a Nvidia denomina Modelos de Ação Mundial, ou WAMs, que permitem que agentes incorporados operem em ambientes que nunca enfrentaram antes.
Construindo sobre uma base estabelecida em 2025
A Nvidia lançou várias iterações anteriores ao longo de 2025, incluindo variantes focadas em previsão, aprendizado por transferência e raciocínio. Esses modelos anteriores já atraíram clientes sérios.
A Figure AI, empresa de robótica humanóide, adotou a tecnologia Cosmos para seus robôs bípedes. A Agility Robotics, outro jogador no segmento de humanóides, fez o mesmo. No lado dos veículos autônomos, Uber, Waabi e Wayve utilizaram versões anteriores do Cosmos para seus esforços de direção autônoma.
O que isso significa para investidores e o mercado em geral
Para a indústria de robótica especificamente, a natureza aberta do Cosmos 3 pode acelerar a adoção entre pequenos players que não possuem recursos para construir seus próprios modelos de mundo do zero. A geração de dados sintéticos, uma das capacidades centrais do modelo, resolve o que historicamente foi o maior gargalo no desenvolvimento de robótica: obter dados suficientes de treinamento no mundo real sem destruir equipamentos caros no processo.

