Binalita ni Nvidia ang unang open omni-model na itinayo lalo para sa physical AI. Ang Cosmos 3, na ipinakilala noong Mayo 31, ay nagtatagpo ng pag-iisip, pagbuo ng mundo, at mga kakayahan sa pagkilos sa isang magkakaugnay na sistema na disenyo upang tulungan ang mga robot at autonomous vehicles na maintindihan ang kumplikado at hindi maipagpalagay na totoo mundo.
Ang Cosmos 3 ay makakagawa ng mga prediktibong video sequence na hanggang 30 segundo batay sa mga input na teksto, imahe, o video, na nagbibigay-daan sa isang robot na “imahinahin” kung ano ang mangyayari sunod sa kanyang kapaligiran bago ito gumalaw ng anumang aktuator.
Ano talaga ang ginagawa ng Cosmos 3
Gumagamit ang Cosmos 3 ng arkitekturang Mixture of Transformers na tinatawag ng Nvidia upang prosesuhin ang maraming uri ng input nang sabay-sabay. Suportahan ng modelo ang mga modalidad ng tunog at aksyon, kaya ang isang robot na may Cosmos 3 ay makakaproseso ng kung ano ang nakikita, nadidinig, at ginagawa nito sa isang iisang framework.
Ang praktikal na aplikasyon ay nakatuon sa isang bagay na tinatawag na robot policy learning. Ang Cosmos 3 ay nagsisilbing backbone para sa mga tinatawag ni Nvidia na World Action Models, o WAMs, na nagpapahintulot sa mga embodied agent na mag-operate sa mga kapaligiran na kanilang hindi pa nakikita bago.
Nakabatay sa isang pundasyon na itinayo noong 2025
Ipinakilala ni Nvidia ang ilang mas maagang bersyon sa loob ng 2025, kabilang ang mga bersyon na nakatuon sa pagpapalaya, transfer learning, at pag-iisip. Ang mga mas maagang modelo ay nakakakuha na ng mga seriyosong kliyente.
Ang Figure AI, ang kumpanya ng humanoid robotics, ay gumamit ng teknolohiya ng Cosmos para sa kanilang mga bipedal na robot. Ang Agility Robotics, isa pang tagapaglalaro sa humanoid, ay ganoon din. Sa aspeto ng autonomous vehicle, ang Uber, Waabi, at Wayve ay nagamit ang mga nakaraang bersyon ng Cosmos para sa kanilang mga pagsisikap sa self-driving.
Ano ang ibig sabihin nito para sa mga investor at sa mas malawak na merkado
Sa robotics industry partikular, ang bukas na kalikasan ng Cosmos 3 ay maaaring mabilisin ang pagtatanggap ng mga mas maliit na player na kulang sa mga yaman upang bumuo ng kanilang sariling world models mula sa simula. Ang synthetic data generation, isa sa mga pangunahing kakayahan ng modelong ito, ay tumutugon sa pinakamalaking bottleneck sa pag-unlad ng robotics: ang pagkuha ng sapat na real-world training data nang hindi pinapagawa ang pagkasira ng mahal na hardware.

