Nvidia vừa ra mắt điều mà họ gọi là mô hình omni mở đầu tiên được xây dựng đặc biệt cho AI vật lý. Cosmos 3, được công bố vào ngày 31 tháng Năm, tích hợp khả năng suy luận, tạo thế giới và hành động vào một hệ thống duy nhất được thiết kế để giúp robot và phương tiện tự hành thực sự hiểu được thế giới thực hỗn loạn và không thể dự đoán được.
Cosmos 3 có thể tạo ra các chuỗi video dự đoán lên đến 30 giây dựa trên đầu vào văn bản, hình ảnh hoặc video, về cơ bản cho phép robot “tưởng tượng” những gì sẽ xảy ra tiếp theo trong môi trường của nó trước khi di chuyển bất kỳ bộ phận chấp hành nào.
Cosmos 3 thực sự làm gì
Cosmos 3 sử dụng kiến trúc Mixture of Transformers mà Nvidia gọi là để xử lý đồng thời nhiều loại đầu vào. Mô hình hỗ trợ các modalities âm thanh và hành động, nghĩa là một robot được trang bị Cosmos 3 có thể xử lý những gì nó nhìn thấy, nghe thấy và thực hiện trong một khung thống nhất.
Ứng dụng thực tiễn tập trung vào một thứ được gọi là học chính sách robot. Cosmos 3 đóng vai trò nền tảng cho những gì Nvidia gọi là Mô hình Hành động Thế giới, hay WAMs, cho phép các tác nhân thể chất hoạt động trong các môi trường mà chúng chưa từng tiếp xúc trước đây.
Xây dựng trên nền tảng được đặt ra vào năm 2025
Nvidia đã phát hành nhiều phiên bản trước đó trong năm 2025, bao gồm các biến thể tập trung vào dự đoán, chuyển giao học và suy luận. Những mô hình trước đó đã thu hút các khách hàng nghiêm túc.
Figure AI, công ty robot hình người, đã áp dụng công nghệ Cosmos cho các robot hai chân của mình. Agility Robotics, một đối thủ khác trong lĩnh vực robot hình người, cũng làm tương tự. Về phía phương tiện tự hành, Uber, Waabi và Wayve đều tận dụng các phiên bản Cosmos trước đó cho nỗ lực lái tự hành của họ.
Điều này có nghĩa gì đối với các nhà đầu tư và thị trường rộng lớn hơn
Đối với ngành công nghiệp robot cụ thể, tính chất mở của Cosmos 3 có thể thúc đẩy sự áp dụng rộng rãi hơn bởi các bên tham gia nhỏ hơn, những người thiếu nguồn lực để xây dựng các mô hình thế giới của riêng mình từ đầu. Việc tạo dữ liệu tổng hợp, một trong những khả năng cốt lõi của mô hình, giải quyết điểm nghẽn lớn nhất trong phát triển robot từ trước đến nay: thu thập đủ dữ liệu huấn luyện thực tế mà không làm hỏng thiết bị đắt tiền trong quá trình này.

