李飛飛發佈機器人與遊戲中世界模型的框架

李飛飛希望解決人工智能領域長期以來的一個爭議：什麼才真正算得上「世界模型」，什麼只是穿著實驗室白大褂的高級視頻生成器。

史丹佛大學教授兼 World Labs 執行長於 2026 年 6 月 3 日發表了《世界模型的功能分類》，提出一個將世界模型分為三種不同功能的框架：渲染器、模擬器和規劃器。該論文主張，這三個角色構成了一個相互關聯的迴圈，支撐著李所稱的「空間智慧」，即能夠真正理解並與物理環境互動的 AI。

三個工作，一個模型

渲染函數負責視覺生成，它能根據數據輸入創建高保真視覺表現。這正是目前大多數「世界模型」實際所做的工作，而李則明確指出，停留在這一層級的系統根本不是真正的世界模型。

模擬功能更為深入。它不僅讓你看到事物的外觀，還能模擬物理、因果關係，以及物件隨時間互動的方式。渲染器可以顯示一個球滾向懸崖邊緣，但模擬器知道球會掉下去。

規劃器功能利用模擬器對世界運作方式的理解來制定行動方案。這正是僅能觀察廚房的 AI，與能夠在不打碎櫥櫃中每一個盤子的情況下，為你做出三明治的 AI 之間的差異。

這三個功能並非獨立運作。李的論文將它們描述為形成一個連續迴圈，其中每項能力都相互支援並強化其他能力。渲染器向模擬器提供視覺情境，模擬器為規劃器提供基於物理的預測，而規劃器的目標則決定渲染器和模擬器需要優先處理的內容。

為何機器人如此需要這項技術

李曾提出，包括在2025年11月的早期宣言中，認為世界模型能夠彌合模擬與現實之間的鴻溝。如果你能建立一個足夠精確的物理世界數位複製品，機器人就可以先在那裡進行訓練。

World Labs 已經開始將這一理論付諸實踐。該公司於 2025 年 11 月推出了其首款商業產品 Marble。Marble 能夠根據多模態提示生成持久且高保真的 3D 世界，意味著您可透過文字、圖片或其他輸入方式描述一個環境，Marble 則會根據該描述構建出可導航的 3D 空間。該系統目前已應用於機器人模擬環境中。

與影片不同，影片是固定的一連串幀，Marble 的世界在您移動時仍保持一致的幾何結構和物理特性。在 Marble 環境中訓練的機器人可以從不同角度接近同一個架子，並在相同的位置找到相同的物件。

推動這項使命的資金

World Labs 於 2026 年 2 月籌集了 10 億美元，繼此前 2.3 億美元的融資輪之後。投資者名單包括 AMD、Autodesk、NVIDIA 和 Fidelity。

總計12.3億美元的融資，使World Labs成為一家專注於空間智能而非主導頭條的大型語言模型競賽的AI初創公司，實屬罕見。