Nvidia baru sahaja melancarkan apa yang disebutnya sebagai omni-model terbuka pertama yang dibina khusus untuk AI fizikal. Cosmos 3, yang diperkenalkan pada 31 Mei, menggabungkan kemampuan penalaran, penjanaan dunia, dan tindakan ke dalam satu sistem yang direka untuk membantu robot dan kenderaan autonomi benar-benar memahami dunia nyata yang kacau dan tidak dapat diramalkan.
Cosmos 3 boleh menghasilkan urutan video prediktif sehingga 30 saat berdasarkan input teks, gambar, atau video, pada dasarnya membolehkan robot "mengimajinasikan" apa yang akan berlaku seterusnya dalam persekitarannya sebelum ia menggerakkan satu aktuator pun.
Apa yang sebenarnya dilakukan Cosmos 3
Cosmos 3 menggunakan arsitektur Mixture of Transformers yang disebut oleh Nvidia untuk memproses beberapa jenis input secara serentak. Model ini menyokong modality suara dan tindakan, bermakna robot yang dilengkapi Cosmos 3 boleh memproses apa yang dilihat, didengar, dan dilakukan dalam satu kerangka terpadu.
Aplikasi praktikal berpusat pada sesuatu yang dipanggil pembelajaran dasar robot. Cosmos 3 berfungsi sebagai tulang belakang bagi apa yang dinamakan Nvidia sebagai Model Tindakan Dunia, atau WAM, yang membolehkan agen berbadan beroperasi di persekitaran yang belum pernah mereka jumpa sebelumnya.
Membina atas asas yang diletakkan pada 2025
Nvidia telah mengeluarkan beberapa iterasi sebelumnya sepanjang 2025, termasuk varian yang berfokus pada ramalan, pembelajaran pindah, dan penalaran. Model-model sebelumnya itu sudah menarik pelanggan serius.
Figure AI, syarikat robotik humanoid, mengadopsi teknologi Cosmos untuk robot bipedalnya. Agility Robotics, pemain humanoid lain, juga melakukan hal yang sama. Di sisi kendera autonomi, Uber, Waabi, dan Wayve semuanya memanfaatkan versi Cosmos sebelumnya untuk usaha pemanduan mandiri mereka.
Apa yang bermaksud ini kepada pelabur dan pasaran yang lebih luas
Khusus untuk industri robotik, sifat terbuka Cosmos 3 boleh mempercepat pengambilan di kalangan pemain kecil yang tidak mempunyai sumber untuk membina model dunia mereka sendiri dari awal. Penghasilan data sintetik, salah satu kemampuan utama model ini, menangani halangan terbesar dalam pembangunan robotik secara sejarah: mendapatkan cukup data latihan dunia nyata tanpa merosakkan peralatan mahal dalam prosesnya.

