Nvidia baru saja meluncurkan apa yang disebutnya sebagai omni-model terbuka pertama yang dibangun khusus untuk AI fisik. Cosmos 3, yang diumumkan pada 31 Mei, mengintegrasikan kemampuan penalaran, generasi dunia, dan tindakan ke dalam satu sistem yang dirancang untuk membantu robot dan kendaraan otonom benar-benar memahami dunia nyata yang kacau dan tidak terduga.
Cosmos 3 dapat menghasilkan urutan video prediktif hingga 30 detik berdasarkan input teks, gambar, atau video, pada dasarnya memungkinkan robot untuk "mengimajinasikan" apa yang akan terjadi selanjutnya di lingkungannya sebelum menggerakkan satu aktuator pun.
Apa yang sebenarnya dilakukan Cosmos 3
Cosmos 3 menggunakan arsitektur Mixture of Transformers yang disebut Nvidia untuk memproses beberapa jenis input secara bersamaan. Model ini mendukung modality suara dan tindakan, artinya robot yang dilengkapi Cosmos 3 dapat memproses apa yang dilihat, didengar, dan dilakukannya dalam kerangka terpadu.
Aplikasi praktis berpusat pada sesuatu yang disebut pembelajaran kebijakan robot. Cosmos 3 berfungsi sebagai tulang punggung untuk apa yang disebut Nvidia sebagai World Action Models, atau WAMs, yang memungkinkan agen terwujud beroperasi di lingkungan yang belum pernah mereka temui sebelumnya.
Membangun di atas fondasi yang diletakkan pada 2025
Nvidia merilis beberapa iterasi sebelumnya sepanjang 2025, termasuk varian yang berfokus pada prediksi, transfer learning, dan penalaran. Model-model sebelumnya tersebut sudah menarik pelanggan serius.
Figure AI, perusahaan robot humanoid, mengadopsi teknologi Cosmos untuk robot bipedalnya. Agility Robotics, pemain humanoid lainnya, juga melakukan hal yang sama. Di sisi kendaraan otonom, Uber, Waabi, dan Wayve semuanya memanfaatkan versi Cosmos sebelumnya untuk upaya self-driving mereka.
Apa artinya ini bagi investor dan pasar secara luas
Untuk industri robotika secara khusus, sifat terbuka Cosmos 3 dapat mempercepat adopsi di kalangan pemain kecil yang tidak memiliki sumber daya untuk membangun model dunia mereka sendiri dari awal. Generasi data sintetis, salah satu kemampuan inti model ini, menangani hambatan terbesar dalam pengembangan robotika secara historis: mendapatkan cukup data pelatihan dunia nyata tanpa merusak perangkat keras mahal dalam prosesnya.

