李飛飛團隊澄清「世界模型」概念，Sora 被歸類為渲染器

2026年6月3日，World Labs團隊與史丹福大學教授李飛飛聯合發布了一篇概念分析文章，標題直白到幾乎沒有修飾：《世界模型的功能分類法》。文章開篇第一句話就戳破了一個行業默契：“世界模型是當今人工智慧領域最重要、也最被濫用的術語之一。”

這句話的背景，任何關注過 AI 行業的人都不陌生。

2024年2月，OpenAI發布視頻生成模型Sora，技術報告標題赫然寫著「Video Generation Models as World Simulators」。NVIDIA機器人總監Jim Fan當時在LinkedIn上留下一句後來被反覆引用的評論：Sora本質上是一個「僅允許無操作作為唯一動作的世界模型」。另一頭，據公開報導，特斯拉AI團隊在公開場合多次將全自動駕駛系統內部的預測組件稱為「世界模型」或「世界模擬器」。遊戲引擎、3D生成工具、具身智能模型，各類產品和技術都被塞進同一個筐裡，貼上了同一張標籤。

一個視頻生成器、一個自動駕駛預測網絡、一個機器人控制模型、一個物理引擎，它們有什麼共同點？幾乎沒有。但它們都被稱為「世界模型」。

這場持續兩年多的概念混亂，終於有人試圖系統性地梳理清楚。李飛飛團隊這次沒有發布新模型，沒有公布新基準，沒有演示任何產品功能。他們做了一件更基礎的事：回到部分可觀馬爾可夫決策過程這一理論源頭，把所有市面上被稱作「世界模型」的系統，歸約為同一個認知迴圈的三種不同功能投影。

三種投影分別是：渲染器、模擬器、規劃器。在 World Labs 的分類框架下，Sora 及其同類視頻生成模型屬於渲染器。

一個術語為何能容納如此多彼此矛盾的含義

要理解這場混亂的根源，需要先追問一個更基礎的問題：當一家公司說「我們在做世界模型」時，它到底在說什麼？

對於 OpenAI 而言，Sora 的目標是「理解並在影片中呈現物理世界」。從技術報告來看，Sora 透過學習海量影片數據中的統計規律，能夠生成符合視覺常識的畫面：杯子掉在地上會碎，紙飛機脫手會飛，人在走路時雙腿交替擺動。這些畫面看起來「懂物理」。

對於特斯拉來說，「世界模型」是 FSD 系統中用於預測道路參與者未來數秒內運動軌跡的神經網絡。它需要輸出精確的 3D 位置、速度和朝向，以供路徑規劃模塊計算安全的駕駛決策。這個模型無需輸出像素，它輸出的是向量和概率分佈。

對於機器人公司來說，「世界模型」是讓機械臂能夠預判「如果我把這個杯子向左推 5 厘米，它會倒嗎」的內部模擬機制。它需要理解物體屬性、接觸力學和穩定性，輸出的是動作可行性評估。

三類公司的目標完全不同。視頻生成公司關注像素保真度，自動駕駛公司關注物理狀態預測的精度，機器人公司關注動作後果的可推演性。它們都在做「世界模型」，但做的根本不是同一件事。

World Labs 在文章中直指問題核心：這些系統之所以都被冠以同一個名字，是因為它們確實都承載了「理解世界」的某一個側面。但它們各自只完成了完整認知循環中的一個環節，卻被營銷語言、媒體報導和資本敘事包裝成了完整的世界模型。

另一個推動概念混亂的因素，是術語本身的張力。「世界模型」這個詞本身就帶有宏大敘事的屬性，聽起來比「視頻生成模型」或「視頻預測模型」更具想像空間，更能支撐高估值和融資故事。當技術能力無法匹配公眾期待時，概念淪為宣傳工具便成為必然。

回到1960年代，完整的「世界模型」應該是什麼

World Labs 的分類框架建立在一個看似古老的理論基礎上：部分可觀馬爾可夫決策過程。

這個框架描述了一個智能體與環境互動的完整迴圈。智能體處於某種環境狀態中，它執行一個動作，該動作改變環境狀態，智能體透過感測器獲得部分觀測，觀測觸發內部狀態更新，更新後的認知驅動下一個動作，如此循環往復。

在這個框架下，「世界模型」的完整功能應包含三個環節：從狀態生成觀測（人眼看到或感測器採集到的像素、點雲等），從動作和當前狀態推演下一狀態（預測物理變化），從觀測和目標生成動作（決策規劃）。

語言模型學習的是文本序列的統計規律，世界模型學習的則是空間和時間的統計特性。光照如何在不同材質表面反射，物體在重力作用下如何運動，剛體碰撞後能量如何傳遞，這些才是世界模型要捕捉的規律。

World Labs 團隊在文章中指出，當前市面上所有被稱為「世界模型」的系統，實際上只是上述完整循環中某一個功能環節的投影。有的系統只做「從狀態到觀測」的渲染，有的只做「從動作到下一狀態」的狀態推演，有的只做「從觀測到動作」的規劃。它們各自截取了循環的一段弧線，卻被各自貼上了代表完整圓形的標籤。

這個分析框架的價值在於，它提供了一個超越營銷話術的比較座標系。不管一家公司如何包裝自己的產品，只要將其放回 POMDP 循環中，觀察其輸入什麼、輸出什麼、缺少哪些環節，其能力邊界便會暴露無遺。

渲染器、模擬器、規劃器，三種投影的能力邊界

在 World Labs 的分類法中，第一類被定義為「渲染器」。其核心目標是生成面向人類視覺感知的高保真像素輸出。輸入是某種環境狀態的表徵（可以是文字描述、3D 場景參數或隱式編碼），輸出是一幀一幀的連續畫面。

渲染器的優化方向是視覺逼真度，而非物理精確度。World Labs 的文章明確指出，該渲染器生成的建築物可能「搖搖欲墜」，因為它並未真正求解結構力學方程；其生成的液體濺射可能看起來真實，但液體體積、流速和衝擊力可能與真實物理量完全不符。因此，此類模型不適用於建築設計、機器人訓練，或任何需要物理精確模擬的任務。

Google 的 Genie 3、各類文本轉視頻模型，以及幾乎所有 AI 視頻生成工具，都屬於這一類別。Sora 當然也在其中。

第二類是「模擬器」。它的核心目標不是生成供人觀看的畫面，而是生成可供後續計算使用的精確狀態。輸入是當前環境狀態和外部作用力（或動作），輸出是物理和幾何上忠實於真實世界規律的下一狀態。模擬器輸出的狀態可用於應力分析、能耗計算、碰撞檢測，也可作為渲染器的輸入來生成可視化畫面，但其核心價值在於狀態本身的可計算性。

NVIDIA Omniverse 是此類系統的典型代表。它並非 AI 原生模型，而是一個融合了傳統物理引擎與 AI 加速計算的數位孿生平台。World Labs 在文章中評價，模擬器是連接渲染與規劃的橋樑，但高品質 3D 物理標註數據的稀缺是主要瓶頸。據 World Labs 在文章中估計，用於訓練此類模型的數據，比互聯網上可獲取的視頻數據少幾個數量級。

第三類是「規劃器」。它的輸入是觀測數據（攝像頭畫面、雷達點雲、觸覺傳感器讀數等）和目標指令，輸出是下一步該執行什麼動作。VLA（視覺-語言-動作）模型和 World Action Models 都屬於這一類。

三大類別之間的差異，並非技術路線的細微分歧，而是根本性的功能分化。渲染器輸出像素給人看，模擬器輸出狀態給機器計算，規劃器輸出動作給執行器運行。一個系統可以同時具備多種能力，但當大多數被稱為「世界模型」的系統本質上只做渲染時，將「渲染」等同於「理解世界」就是一種嚴重的認知錯配。

一場持續兩年的爭論，Sora 到底是不是世界模型

2024年2月，OpenAI發佈Sora，技術報告標題直接寫上「Video Generation Models as World Simulators」。這一用詞立即引發學術界和開發者社區的激烈爭論。

支持者認為，Sora 生成的影片展示了三維空間一致性、物體持久性以及對物理交互的某種直觀理解。一塊被咬過的漢堡會留下齒痕，一隻狗在雪地裡跑會濺起雪花，這些細節似乎表明模型學到了一些物理規律。

反對者的核心論點來自強化學習領域對世界模型的經典定義：一個世界模型必須能夠根據動作進行狀態轉移預測。也就是說，給定當前狀態和一個動作輸入，模型應輸出動作之後的下一個狀態。Sora 無法做到這一點。用戶無法告訴 Sora「從左邊推開那個杯子」，然後觀測杯子是否會倒下、往哪個方向倒下、碎片飛到哪裡去。

Jim Fan 的評論精準地抓住了這個矛盾：「Sora 本質上是一個世界模型，只是它只允許無操作（no-op）作為唯一動作。」這句話的意思是，Sora 確實在預測環境隨時間的變化，但這個變化過程不受任何外部干預，只能沿著視頻數據中固有的因果鏈展開。它不是在做互動推演，而是在做被動觀測序列的續寫。

在 Reddit 的 r/MachineLearning 版塊上，不少強化學習研究者提出了更尖銳的批評：無法根據動作進行狀態轉移預測的系統，不能稱為世界模型，只能稱為視頻預測模型。

World Labs 的分類框架為這場爭論提供了一個決定性的回答。在 POMDP 循環中，動作是驅動狀態轉移的關鍵輸入，缺少這一輸入的系統僅僅是完整認知循環中「觀測生成」環節的投影。Sora 屬於渲染器，而非完整的世界模型，更不是世界模擬器。

但这並不意味著 Sora 沒有價值。渲染器解決的是另一個問題：如何生成符合人類視覺預期的畫面。這個問題本身極其困難，也具有巨大的商業價值。問題在於，將渲染能力包裝成「理解世界」的能力，會誤導技術決策者和投資者，讓人誤以為這些模型已具備物理推演或具身交互的能力。

產業價值：概念澄清

釐清「世界模型」的定義邊界，不是一場學術上的咬文嚼字。它直接影響技術選型、投資判斷和公眾對 AI 能力的認知水位。

對於一家正在評估是否將某個「世界模型」用於機器人訓練的製造企業來說，弄清楚這個模型究竟是渲染器、模擬器還是規劃器，是避免數百萬美元試錯的必要前提。一個只能生成影片畫面的模型，無論畫面多麼逼真，都不能替代對物體受力、運動軌跡和碰撞後果的精確計算。

對於投資機構而言，區分三類投影有助於更準確地識別項目所處的技術棧位置。一家自稱為「世界模型」的初創公司，若其產品本質上是一個渲染器，則其競爭對手是視頻生成公司，而非數位孿生平台或機器人控制模型。這直接決定了市場規模的估算方式與對標公司的選取。

對於學術界來說，清晰的分類是建立可比基準的前提。如果「世界模型」這個術語繼續被泛化，研究者就難以定義什麼算改進、什麼算突破，同行評議將建立在歧義的基礎上。

World Labs 在文章中也指出，概念澄清並非為了製造對立。未來的發展方向將是三類投影的融合。一個真正理解杯子物理屬性的模型，應該能同時渲染它的視覺外觀、模擬它被推倒時的物理過程，並規劃機械手如何穩定地抓取它。但在技術發展到那一步之前，認清各自的邊界比暢想融合更有現實意義。

根據 World Labs 在文章中的估計，以 NVIDIA Omniverse 為代表的模擬器及數位雙生技術，瞄準的是工廠、倉庫、供應鏈等領域超過萬億美元的潛在市場。這個數字來自廠商自身的判斷，至於市場何時能真正達到這個規模，取決於模擬器能否突破高品質 3D 物理數據稀缺的瓶頸。

對於當前階段的 AI 行業來說，最重要的認知或許很簡單：能生成逼真影片，不等於理解物理世界；能被稱為世界模型，不等於真的在模擬世界。穿透營銷語言，審視一個系統在 POMDP 循環中到底接受什麼輸入、輸出什麼結果、缺少哪個環節，是對技術能力邊界最誠實的判斷方式。