李飛飛團隊澄清「世界模型」概念,Sora 被歸類為渲染器

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
現實資產(RWA)新聞出現在由李飛飛領導的 World Labs 團隊發布一篇澄清「世界模型」概念的論文後。該論文指出,像 Sora 這樣的系統被歸類為渲染器,而非完整的世界模型。根據該團隊的說法,目前的模型僅能處理 POMDP 三個功能中的一個——渲染、模擬或規劃。例如,Sora 能生成逼真的影片,但缺乏模擬或規劃能力。鏈上新聞顯示,市場對 AI 工具如何與現實世界數據和環境互動的興趣日益增長。

2026年6月3日,World Labs團隊與史丹福大學教授李飛飛聯合發布了一篇概念分析文章,標題直白到幾乎沒有修飾:《世界模型的功能分類法》。文章開篇第一句話就戳破了一個行業默契:“世界模型是當今人工智慧領域最重要、也最被濫用的術語之一。”

這句話的背景,任何關注過 AI 行業的人都不陌生。

2024年2月,OpenAI發布視頻生成模型Sora,技術報告標題赫然寫著「Video Generation Models as World Simulators」。NVIDIA機器人總監Jim Fan當時在LinkedIn上留下一句後來被反覆引用的評論:Sora本質上是一個「僅允許無操作作為唯一動作的世界模型」。另一頭,據公開報導,特斯拉AI團隊在公開場合多次將全自動駕駛系統內部的預測組件稱為「世界模型」或「世界模擬器」。遊戲引擎、3D生成工具、具身智能模型,各類產品和技術都被塞進同一個筐裡,貼上了同一張標籤。

一個視頻生成器、一個自動駕駛預測網絡、一個機器人控制模型、一個物理引擎,它們有什麼共同點?幾乎沒有。但它們都被稱為「世界模型」。

這場持續兩年多的概念混亂,終於有人試圖系統性地梳理清楚。李飛飛團隊這次沒有發布新模型,沒有公布新基準,沒有演示任何產品功能。他們做了一件更基礎的事:回到部分可觀馬爾可夫決策過程這一理論源頭,把所有市面上被稱作「世界模型」的系統,歸約為同一個認知迴圈的三種不同功能投影。

三種投影分別是:渲染器、模擬器、規劃器。在 World Labs 的分類框架下,Sora 及其同類視頻生成模型屬於渲染器。

一個術語為何能容納如此多彼此矛盾的含義

要理解這場混亂的根源,需要先追問一個更基礎的問題:當一家公司說「我們在做世界模型」時,它到底在說什麼?

對於 OpenAI 而言,Sora 的目標是「理解並在影片中呈現物理世界」。從技術報告來看,Sora 透過學習海量影片數據中的統計規律,能夠生成符合視覺常識的畫面:杯子掉在地上會碎,紙飛機脫手會飛,人在走路時雙腿交替擺動。這些畫面看起來「懂物理」。

對於特斯拉來說,「世界模型」是 FSD 系統中用於預測道路參與者未來數秒內運動軌跡的神經網絡。它需要輸出精確的 3D 位置、速度和朝向,以供路徑規劃模塊計算安全的駕駛決策。這個模型無需輸出像素,它輸出的是向量和概率分佈。

對於機器人公司來說,「世界模型」是讓機械臂能夠預判「如果我把這個杯子向左推 5 厘米,它會倒嗎」的內部模擬機制。它需要理解物體屬性、接觸力學和穩定性,輸出的是動作可行性評估。

三類公司的目標完全不同。視頻生成公司關注像素保真度,自動駕駛公司關注物理狀態預測的精度,機器人公司關注動作後果的可推演性。它們都在做「世界模型」,但做的根本不是同一件事。

World Labs 在文章中直指問題核心:這些系統之所以都被冠以同一個名字,是因為它們確實都承載了「理解世界」的某一個側面。但它們各自只完成了完整認知循環中的一個環節,卻被營銷語言、媒體報導和資本敘事包裝成了完整的世界模型。

另一個推動概念混亂的因素,是術語本身的張力。「世界模型」這個詞本身就帶有宏大敘事的屬性,聽起來比「視頻生成模型」或「視頻預測模型」更具想像空間,更能支撐高估值和融資故事。當技術能力無法匹配公眾期待時,概念淪為宣傳工具便成為必然。

回到1960年代,完整的「世界模型」應該是什麼

World Labs 的分類框架建立在一個看似古老的理論基礎上:部分可觀馬爾可夫決策過程。

這個框架描述了一個智能體與環境互動的完整迴圈。智能體處於某種環境狀態中,它執行一個動作,該動作改變環境狀態,智能體透過感測器獲得部分觀測,觀測觸發內部狀態更新,更新後的認知驅動下一個動作,如此循環往復。

在這個框架下,「世界模型」的完整功能應包含三個環節:從狀態生成觀測(人眼看到或感測器採集到的像素、點雲等),從動作和當前狀態推演下一狀態(預測物理變化),從觀測和目標生成動作(決策規劃)。

語言模型學習的是文本序列的統計規律,世界模型學習的則是空間和時間的統計特性。光照如何在不同材質表面反射,物體在重力作用下如何運動,剛體碰撞後能量如何傳遞,這些才是世界模型要捕捉的規律。

World Labs 團隊在文章中指出,當前市面上所有被稱為「世界模型」的系統,實際上只是上述完整循環中某一個功能環節的投影。有的系統只做「從狀態到觀測」的渲染,有的只做「從動作到下一狀態」的狀態推演,有的只做「從觀測到動作」的規劃。它們各自截取了循環的一段弧線,卻被各自貼上了代表完整圓形的標籤。

這個分析框架的價值在於,它提供了一個超越營銷話術的比較座標系。不管一家公司如何包裝自己的產品,只要將其放回 POMDP 循環中,觀察其輸入什麼、輸出什麼、缺少哪些環節,其能力邊界便會暴露無遺。

渲染器、模擬器、規劃器,三種投影的能力邊界

在 World Labs 的分類法中,第一類被定義為「渲染器」。其核心目標是生成面向人類視覺感知的高保真像素輸出。輸入是某種環境狀態的表徵(可以是文字描述、3D 場景參數或隱式編碼),輸出是一幀一幀的連續畫面。

渲染器的優化方向是視覺逼真度,而非物理精確度。World Labs 的文章明確指出,該渲染器生成的建築物可能「搖搖欲墜」,因為它並未真正求解結構力學方程;其生成的液體濺射可能看起來真實,但液體體積、流速和衝擊力可能與真實物理量完全不符。因此,此類模型不適用於建築設計、機器人訓練,或任何需要物理精確模擬的任務。

Google 的 Genie 3、各類文本轉視頻模型,以及幾乎所有 AI 視頻生成工具,都屬於這一類別。Sora 當然也在其中。

第二類是「模擬器」。它的核心目標不是生成供人觀看的畫面,而是生成可供後續計算使用的精確狀態。輸入是當前環境狀態和外部作用力(或動作),輸出是物理和幾何上忠實於真實世界規律的下一狀態。模擬器輸出的狀態可用於應力分析、能耗計算、碰撞檢測,也可作為渲染器的輸入來生成可視化畫面,但其核心價值在於狀態本身的可計算性。

NVIDIA Omniverse 是此類系統的典型代表。它並非 AI 原生模型,而是一個融合了傳統物理引擎與 AI 加速計算的數位孿生平台。World Labs 在文章中評價,模擬器是連接渲染與規劃的橋樑,但高品質 3D 物理標註數據的稀缺是主要瓶頸。據 World Labs 在文章中估計,用於訓練此類模型的數據,比互聯網上可獲取的視頻數據少幾個數量級。

第三類是「規劃器」。它的輸入是觀測數據(攝像頭畫面、雷達點雲、觸覺傳感器讀數等)和目標指令,輸出是下一步該執行什麼動作。VLA(視覺-語言-動作)模型和 World Action Models 都屬於這一類。

三大類別之間的差異,並非技術路線的細微分歧,而是根本性的功能分化。渲染器輸出像素給人看,模擬器輸出狀態給機器計算,規劃器輸出動作給執行器運行。一個系統可以同時具備多種能力,但當大多數被稱為「世界模型」的系統本質上只做渲染時,將「渲染」等同於「理解世界」就是一種嚴重的認知錯配。

一場持續兩年的爭論,Sora 到底是不是世界模型

2024年2月,OpenAI發佈Sora,技術報告標題直接寫上「Video Generation Models as World Simulators」。這一用詞立即引發學術界和開發者社區的激烈爭論。

支持者認為,Sora 生成的影片展示了三維空間一致性、物體持久性以及對物理交互的某種直觀理解。一塊被咬過的漢堡會留下齒痕,一隻狗在雪地裡跑會濺起雪花,這些細節似乎表明模型學到了一些物理規律。

反對者的核心論點來自強化學習領域對世界模型的經典定義:一個世界模型必須能夠根據動作進行狀態轉移預測。也就是說,給定當前狀態和一個動作輸入,模型應輸出動作之後的下一個狀態。Sora 無法做到這一點。用戶無法告訴 Sora「從左邊推開那個杯子」,然後觀測杯子是否會倒下、往哪個方向倒下、碎片飛到哪裡去。

Jim Fan 的評論精準地抓住了這個矛盾:「Sora 本質上是一個世界模型,只是它只允許無操作(no-op)作為唯一動作。」這句話的意思是,Sora 確實在預測環境隨時間的變化,但這個變化過程不受任何外部干預,只能沿著視頻數據中固有的因果鏈展開。它不是在做互動推演,而是在做被動觀測序列的續寫。

在 Reddit 的 r/MachineLearning 版塊上,不少強化學習研究者提出了更尖銳的批評:無法根據動作進行狀態轉移預測的系統,不能稱為世界模型,只能稱為視頻預測模型。

World Labs 的分類框架為這場爭論提供了一個決定性的回答。在 POMDP 循環中,動作是驅動狀態轉移的關鍵輸入,缺少這一輸入的系統僅僅是完整認知循環中「觀測生成」環節的投影。Sora 屬於渲染器,而非完整的世界模型,更不是世界模擬器。

但这並不意味著 Sora 沒有價值。渲染器解決的是另一個問題:如何生成符合人類視覺預期的畫面。這個問題本身極其困難,也具有巨大的商業價值。問題在於,將渲染能力包裝成「理解世界」的能力,會誤導技術決策者和投資者,讓人誤以為這些模型已具備物理推演或具身交互的能力。

產業價值:概念澄清

釐清「世界模型」的定義邊界,不是一場學術上的咬文嚼字。它直接影響技術選型、投資判斷和公眾對 AI 能力的認知水位。

對於一家正在評估是否將某個「世界模型」用於機器人訓練的製造企業來說,弄清楚這個模型究竟是渲染器、模擬器還是規劃器,是避免數百萬美元試錯的必要前提。一個只能生成影片畫面的模型,無論畫面多麼逼真,都不能替代對物體受力、運動軌跡和碰撞後果的精確計算。

對於投資機構而言,區分三類投影有助於更準確地識別項目所處的技術棧位置。一家自稱為「世界模型」的初創公司,若其產品本質上是一個渲染器,則其競爭對手是視頻生成公司,而非數位孿生平台或機器人控制模型。這直接決定了市場規模的估算方式與對標公司的選取。

對於學術界來說,清晰的分類是建立可比基準的前提。如果「世界模型」這個術語繼續被泛化,研究者就難以定義什麼算改進、什麼算突破,同行評議將建立在歧義的基礎上。

World Labs 在文章中也指出,概念澄清並非為了製造對立。未來的發展方向將是三類投影的融合。一個真正理解杯子物理屬性的模型,應該能同時渲染它的視覺外觀、模擬它被推倒時的物理過程,並規劃機械手如何穩定地抓取它。但在技術發展到那一步之前,認清各自的邊界比暢想融合更有現實意義。

根據 World Labs 在文章中的估計,以 NVIDIA Omniverse 為代表的模擬器及數位雙生技術,瞄準的是工廠、倉庫、供應鏈等領域超過萬億美元的潛在市場。這個數字來自廠商自身的判斷,至於市場何時能真正達到這個規模,取決於模擬器能否突破高品質 3D 物理數據稀缺的瓶頸。

對於當前階段的 AI 行業來說,最重要的認知或許很簡單:能生成逼真影片,不等於理解物理世界;能被稱為世界模型,不等於真的在模擬世界。穿透營銷語言,審視一個系統在 POMDP 循環中到底接受什麼輸入、輸出什麼結果、缺少哪個環節,是對技術能力邊界最誠實的判斷方式。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露