李飛飛希望解決人工智能領域長期以來的一個爭議:什麼才真正算得上「世界模型」,什麼只是穿著實驗室白大褂的高級視頻生成器。
史丹佛大學教授兼 World Labs 執行長於 2026 年 6 月 3 日發表了《世界模型的功能分類》,提出一個將世界模型分為三種不同功能的框架:渲染器、模擬器和規劃器。該論文主張,這三個角色構成了一個相互關聯的迴圈,支撐著李所稱的「空間智慧」,即能夠真正理解並與物理環境互動的 AI。
三個工作,一個模型
渲染函數負責視覺生成,它能根據數據輸入創建高保真視覺表現。這正是目前大多數「世界模型」實際所做的工作,而李則明確指出,停留在這一層級的系統根本不是真正的世界模型。
模擬功能更為深入。它不僅讓你看到事物的外觀,還能模擬物理、因果關係,以及物件隨時間互動的方式。渲染器可以顯示一個球滾向懸崖邊緣,但模擬器知道球會掉下去。
規劃器功能利用模擬器對世界運作方式的理解來制定行動方案。這正是僅能觀察廚房的 AI,與能夠在不打碎櫥櫃中每一個盤子的情況下,為你做出三明治的 AI 之間的差異。
這三個功能並非獨立運作。李的論文將它們描述為形成一個連續迴圈,其中每項能力都相互支援並強化其他能力。渲染器向模擬器提供視覺情境,模擬器為規劃器提供基於物理的預測,而規劃器的目標則決定渲染器和模擬器需要優先處理的內容。
為何機器人如此需要這項技術
李曾提出,包括在2025年11月的早期宣言中,認為世界模型能夠彌合模擬與現實之間的鴻溝。如果你能建立一個足夠精確的物理世界數位複製品,機器人就可以先在那裡進行訓練。
World Labs 已經開始將這一理論付諸實踐。該公司於 2025 年 11 月推出了其首款商業產品 Marble。Marble 能夠根據多模態提示生成持久且高保真的 3D 世界,意味著您可透過文字、圖片或其他輸入方式描述一個環境,Marble 則會根據該描述構建出可導航的 3D 空間。該系統目前已應用於機器人模擬環境中。
與影片不同,影片是固定的一連串幀,Marble 的世界在您移動時仍保持一致的幾何結構和物理特性。在 Marble 環境中訓練的機器人可以從不同角度接近同一個架子,並在相同的位置找到相同的物件。
推動這項使命的資金
World Labs 於 2026 年 2 月籌集了 10 億美元,繼此前 2.3 億美元的融資輪之後。投資者名單包括 AMD、Autodesk、NVIDIA 和 Fidelity。
總計12.3億美元的融資,使World Labs成為一家專注於空間智能而非主導頭條的大型語言模型競賽的AI初創公司,實屬罕見。
