Fei-Fei Li muốn giải quyết một cuộc tranh luận đã âm ỉ trong cộng đồng AI trong một thời gian dài: điều gì thực sự được coi là “mô hình thế giới” và điều gì chỉ là một trình tạo video cao cấp khoác lên mình áo blouse phòng thí nghiệm.
Giáo sư Stanford và CEO của World Labs đã công bố bài viết “Một Phân loại Chức năng của Các Mô hình Thế giới” vào ngày 3 tháng 6 năm 2026, đưa ra một khung framework phân loại các mô hình thế giới thành ba chức năng riêng biệt: trình chiếu, mô phỏng và lập kế hoạch. Bài báo cho rằng ba vai trò này tạo thành một vòng lặp liên kết, làm nền tảng cho “trí thông minh không gian” mà Li gọi là loại AI thực sự có thể hiểu và tương tác với các môi trường vật lý.
Ba công việc, một mô hình
Chức năng trình chiếu xử lý việc tạo hình ảnh trực quan. Nó tạo ra các biểu diễn hình ảnh độ phân giải cao từ các đầu vào dữ liệu. Đây chính là những gì hầu hết các “mô hình thế giới” hiện tại thực sự làm, và Li đưa ra lập luận sắc sảo rằng các hệ thống bị kẹt ở mức độ này thực chất không phải là mô hình thế giới đích thực.
Chức năng mô phỏng đi sâu hơn. Nó không chỉ cho bạn thấy một thứ trông như thế nào. Nó mô phỏng vật lý, nguyên nhân và hệ quả, cũng như cách các đối tượng tương tác theo thời gian. Một trình render có thể hiển thị một quả bóng lăn về phía mép vách đá. Một trình mô phỏng biết rằng quả bóng sẽ rơi xuống.
Chức năng lập kế hoạch sử dụng hiểu biết của mô phỏng về cách thế giới vận hành để vạch ra các hành động. Đó là sự khác biệt giữa một AI chỉ quan sát căn bếp và một AI có thể tự tìm ra cách làm cho bạn một chiếc bánh sandwich mà không làm vỡ mọi chiếc đĩa trong tủ.
Ba chức năng này không hoạt động độc lập. Bài viết của Li mô tả chúng tạo thành một vòng lặp liên tục, nơi mỗi khả năng đều hỗ trợ và củng cố lẫn nhau. Bộ render cung cấp bối cảnh trực quan cho bộ mô phỏng, bộ mô phỏng cung cấp các dự đoán dựa trên vật lý cho bộ lập kế hoạch, và các mục tiêu của bộ lập kế hoạch định hình những gì bộ render và bộ mô phỏng cần ưu tiên.
Tại sao robot cần điều này đến vậy
Li đã lập luận, bao gồm trong một bản tuyên ngôn trước đó vào tháng 11 năm 2025, rằng các mô hình thế giới có thể thu hẹp khoảng cách giữa mô phỏng và thực tế. Nếu bạn có thể xây dựng một bản sao kỹ thuật số chính xác đủ của thế giới vật lý, robot có thể luyện tập ở đó trước.
World Labs đã bắt đầu áp dụng lý thuyết này vào thực tiễn. Công ty đã ra mắt Marble, sản phẩm thương mại đầu tiên của mình, vào tháng 11 năm 2025. Marble tạo ra các thế giới 3D bền vững, độ phân giải cao từ các đầu vào đa phương thức, nghĩa là bạn có thể mô tả một môi trường bằng văn bản, hình ảnh hoặc các đầu vào khác, và Marble sẽ xây dựng một không gian 3D có thể điều hướng dựa trên mô tả đó. Hệ thống hiện đang được sử dụng trong các môi trường mô phỏng robot.
Khác với video, vốn là một chuỗi khung hình cố định, các thế giới của Marble duy trì hình học và vật lý nhất quán khi bạn di chuyển qua chúng. Một robot đào tạo trong môi trường Marble có thể tiếp cận cùng một kệ từ các góc độ khác nhau và tìm thấy cùng các vật thể ở cùng các vị thế.
Số tiền đằng sau sứ mệnh
World Labs huy động được 1 tỷ USD vào tháng 2 năm 2026, xây dựng trên vòng gọi vốn trước đó là 230 triệu USD. Danh sách nhà đầu tư bao gồm AMD, Autodesk, NVIDIA và Fidelity.
Tổng số vốn huy động 1,23 tỷ USD giúp World Labs gia nhập nhóm hiếm hoi các startup AI tập trung vào trí tuệ không gian thay vì cuộc đua vũ trang về mô hình ngôn ngữ lớn đang thống trị các tin tức.
