本文探討具身智能領域的世界模型發展路徑。當前存在兩條路線：硅谷的「替代派」追求以 WAM 役代 VLA，國內主流的「融合派」則將世界模型作為 VLA 的能力補集。文章指出世界模型面臨三重泡沫——定義泛化、算力門檻高、落地困難。文章認為真正的世界模型應嵌入真實業務閉環，協助機器在物理世界中行動，而非僅追求生成畫面的逼真度。

文章作者、來源：先驗實驗室

從 VLA 到 WAM，一場被高估的革命和被低估的進化。

過去半年，具身智能領域有兩場最熱鬧的輿論狂歡。一場屬於螢幕：從 Sora 到各類視頻生成模型接連秀出肌肉，一杯水傾倒漫開的細節、連續空間裡的人物運動，讓 “AI 再造現實” 的敘事衝上頂峰，“世界模型來了” 的驚呼此起彼伏。另一場屬於墓碑：英偉達首席研究科學家 Jim Fan 用一張 WAM（World Action Model）站在 VLA（視覺 - 語言 - 動作模型）墓碑前的 meme 圖，宣告 “VLA 已死，世界模型萬歲”，直接將路線之爭推到台前。（本文僅討論具身智能的世界模型）

兩場狂歡共享同一個核心詞：世界模型。

但諷刺的是，在具身智能領域，討論的人越多，它的面貌就越模糊：有人把生成逼真視頻稱為世界模型，有人把機器人動作預演稱為世界模型，也有人把自動駕駛模擬環境稱為世界模型。在同一個概念下，卻裝著完全不同的技術目標與商業訴求。

當前世界模型最大的危險，從來不是「定義不清」，而是所有人都在用它最容易展示、最容易製造傳播爆點的一面，定義它的全部價值。當「造世界」的炫技蓋過「用世界」的本質，世界模型正被最會講故事的人，帶離它真正該去的地方：Physical AI 的真實物理場景。

世界模型當然需要「造世界」的能力。沒有那些令人驚艷的生成演示，它不會如此迅速地走進公眾與資本的視野。但對 Physical AI 產業而言，生成一個世界，從來都只是問題的開始。世界最終要被控制、被驗證、被修正，最終成為機器行動前的預演空間、決策依據。視頻生成可以推開世界模型的大門，但替它走不完通向真實物理世界的路。

我們從不缺乏新概念與新敘事，具身智能一定會走出自己的通用之路。屆時，至於這條路叫 VLA、叫 WAM，還是其他什麼名字，或許將根本不再重要。

畢竟，它已嵌入我們的生活。

世界模型並不完全等同於「生成畫面」

還記得 Sora 嗎？

當年，OpenAI 發布 Sora 時，報告標題即為 “Video generation models as world simulators”，宣稱視頻生成模型有望成為通往「物理世界通用模擬器」的可行路徑。Sora 當時展示的長視頻中，鏡頭運動、局部 3D 一致性與物體狀態保持能力，讓公眾首次直觀感受到：AI 似乎真的在學習「構建一個世界」。相比文本和圖片，視頻天然貼合人類對「世界」的直覺感知——有時間、有空間、有運動、有連續變化，很容易讓人產生「模型已經掌握物理規律」的錯覺。

這類能力天生適合在發布會上展示，也最易吸引資本與媒體的關注。久而久之，「視頻生成 = 世界模型」成了許多人默認的認知入口。

這當然不是錯誤。在數位原生場景中，視頻生成路線本就是高效的解決方案，且已湧現出眾多獨角獸公司。它們的產品可用於遊戲行業即時生成動態場景，既降低美術成本，又提升玩家自由度；在航空航天、高端製造等高試錯成本領域，則可用於擴展測試邊界、豐富模擬場景，同樣具有明確的商業價值。此時生成的「世界」並非僅供觀眾觀看的畫面，而是可互動、可試錯的模擬環境。

真正的誤讀發生在跨界之時，當世界模型碰到具身智能時，很多人默认，模型能生成一個連續逼真的數字世界，就等於它掌握了物理世界的理解、預測與行動能力。

北京智源人工智能研究院院長王仲遠對此的判斷一針見血：當前被廣泛當作世界模型代表的視頻生成技術，本質只是像素級的世界模擬。「視頻生成模型可以生成一群豬在天上和飛機一起飛，因為它的訓練數據裡包含大量科幻電影內容，它的目標從來就不是還原真實物理世界的規律。」

一個經典的具身情境足以說明差距：抓取杯子。模型能從不同視角生成外觀一致的杯子，這是視覺一致性，是它從視頻數據中學到的；但伸手觸碰後，摩擦力有多大？材質能否承受相應的握力？杯子落在桌面上，是因為模型記住了「杯子通常在桌上」，還是真正理解了重力、支撐力與接觸約束？複雜的力學響應、接觸後的狀態變化、真實物理定律的因果約束，都不是一段生成視頻能夠涵蓋的。當一輛橫著走的汽車被生成出來，還未經校驗就進入自動駕駛的訓練鏈條，真實物理世界遲早會給予慘痛的反噬。

換句話說，視頻生成是世界模型的一種表現形式，已在許多場景中落地，但絕非具身智能所需的世界模型，更不是 Physical AI 語境下的核心形態。用「造世界」的視覺效果來定義具身智能的世界模型，本質是用數字世界的尺規去衡量物理世界的問題。

VLA 已死？世界模型不是革命，而是補位

“VLA 已死，WAM 接班” 是產業內部最流行的敘事。

過去兩年，VLA 一直是具身智能的主流路徑。它沿用大語言模型的預訓練思路，通過海量遙操作數據建立「感知 - 指令 - 動作」的映射，讓機器人從生硬的重複動作，轉向理解自然語言、拆解複雜任務。產業內所有主流玩家，都曾以 VLA 為核心技術底座。

但 VLA 的短板也非常明確：本質是來自模仿學習的記憶與映射，缺乏對物理規律的底層理解，一旦遇到數據中從未見過的新場景、新物體，泛化能力就會迅速失效。Jim Fan 提出的 WAM 路線，恰恰針對這一痛點。其核心邏輯是從「語義理解」轉向「物理預測」：不再直接輸出動作，而是先預測未來的世界狀態，再反推動作序列，等於讓機器人在行動前先在腦中「預演」一遍後果，以此提升對陌生場景的適應能力。

於是「顛覆論」迅速發酵，VLA 是過時的舊範式，世界模型才是具身智能的下一代答案。但在真實的產業實踐裡，事情遠非「非生即死」這麼簡單。

行業正分化出兩條清晰的路線，背後是不同的技術哲學與商業訴求：

一條是由矽谷主導的「替代派」。以英偉達、Google DeepMind 為代表，依託充足的算力與數據儲備，追求徹底的範式重構。英偉達在 Cosmos 3 中將語言、圖像、視頻、動作序列納入同一套 Physical AI 世界模型框架，試圖讓生成、模擬、動作預測不再是割裂模塊；Waymo 與谷歌 DeepMind 合作推出的 Waymo World Model，藉助 Genie 3 模型能力，不只是用來生成罕見天氣、動物闖入等長尾場景，重點是讓這些場景受駕駛動作、道路佈局和語言條件控制，用來測試自動駕駛系統在反事實情境下的反應。

這條路野心最大，也最符合「革命敘事」，但門檻極高，是頭部巨頭的遊戲。

另一種是國內更普遍的「融合派」。絕大多數玩家並未選擇推倒重來，而是將世界模型作為 VLA 的能力補集，嵌入現有架構之中。智平方於 2026 年 5 月發布了 VLA 具身大模型 AlphaBrain。它借鑒人腦「大腦-小腦-軀幹」的分工機制，透過「快慢系統」協同配合，將世界模型的「預演」能力內嵌至 VLA 架構內部——慢系統負責環境態勢感知與高層行為規劃，快系統負責精細感測與快速反饋。智平方創始人郭彥東的判斷非常直接：「世界模型和 VLA 完全不衝突，本來就是同一技術路線的一個分支。若想執行更長程的推理任務，就需要世界模型 + VLA，或將世界模型與 VLA 合併。」

Galaxy General 也走得非常遠，他們於今年4月發布的 LDA-1B 模型，在統一框架內同時進行策略學習、物理預測和視覺感知，首次在工業級十億參數規模上實現了世界模型與動作模型的統一，相關成果已入選機器人頂會 RSS，模型權重與訓練代碼已開源。他們不糾結於「選擇 VLA 還是世界模型」，而是更務實地讓預測與執行共享同一個模型，各取所長，各補所短。

在我們看來，「替代」與「融合」沒有絕對的對錯，只是不同階段的不同選擇。VLA 不會真的「死亡」，世界模型也不是顛覆一切的革命，它補上的是 VLA 最缺失的物理預測能力。二者的終局關係，更可能是分層協作，而非你死我活。真正決定路線勝負的，從來不是概念夠不夠新潮，而是誰能先把數據、仿真、真機部署的鏈條跑通，讓機器人真正走進真實場景。

世界模型尚未落地，概念虛火已先被炒起

當概念熱度跑在技術落地前面，泡沫幾乎是必然產物。眼下的世界模型賽道，至少已經浮現出三重值得警惕的泡沫。

第一重是定義泡沫。今天的「世界模型」已變成一個什麼都能往裡裝的筐。Yann LeCun 認為它是抽象層的世界狀態預測，李飛飛將其定義為可交互的 3D 空間表徵，英偉達把它定位成物理 AI 生成式模擬器，創業公司裡有人拿視頻生成湊數，有人把傳統仿真引擎換個名字就叫世界模型。國內宣稱布局世界模型的公司已有數十家，但彼此說的可能根本不是同一件事。當一個技術概念可以被無限解釋，它往往就失去了技術標尺的意義。定義泛化的背後，是融資需求與營銷敘事的共同推動，畢竟，叫「世界模型」，總比叫「視頻生成工具」或「仿真優化方案」更值錢。

第二重是算力泡沫。世界模型的主流訓練路線，建立在海量視頻數據與超大算力的基礎之上，而這恰恰是英偉達的主場。黃仁勳在GTC大會上直言，到2027年Blackwell和Rubin晶片、以及其為具身智能模型等設計的配套系統至少給英偉達帶來1萬億美元收入。某種意義上，矽谷頭部玩家力推「全模態通用世界模型」路線，本身就與英偉達「賣算力基建」的商業邏輯高度契合。但這條路線的投入門檻對絕大多數公司而言堪稱無底洞，過去押注VLA的中小團隊，尚且難以承擔如此規模的沉沒成本，更不用說從零切入世界模型賽道。當所有人都在討論同一條高算力路線，卻很少有人算得清投入產出比，這本身就是泡沫的信號。

第三重，也是最致命的，是落地泡沫。所有概念敘事最終都要回答同一個問題：它到底能不能提升真機表現？而現實是，仿真到真實的遷移鴻溝，不會因為模型名字從 VLA 換成 WAM 就自動消失。視頻裡一個細微的穿模、反重力、邊界模糊，放到機器人訓練裡就會固化成錯誤的物理認知；一個看起來合理但違背物理規律的預測，對真機的誤導甚至比不用模型訓練更嚴重。

螞蟻靈波首席科學家沈宇軍曾指出核心差異：數字世界的生成模型可以追求高清逼真，慢一點沒關係；但物理世界的模型，首要要求是快、穩、準，要能即時輸出反饋、支撐動作。很多團隊執著於在數字世界裡把場景渲染得越來越真實，卻忽略了真實物理交互的數據才是最稀缺的資源。世界模型可以在模擬裡跑出漂亮的指標，但只要還未在工廠產線、物流倉庫、開放道路上驗證出真實價值，它就依然是實驗室裡的技術探索，而非產業級的基礎設施。

那麼，面向 Physical AI 或具身智能的世界模型，到底應該是什麼樣子？答案從來不在發布會的演示影片裡，而在真實場景的需求裡。它的核心評價標準，從來不是「生成的世界夠不夠逼真」，而是「能不能幫機器更好地在物理世界裡行動」，能不能降低試錯成本、能不能提升泛化能力、能不能嵌入真實的業務閉環。

從目前產業的實踐來看，真正走在正確方向上的玩家，都在做同一件事：讓世界模型從「展示導向」轉向「任務導向」。換句話說，世界模型的終極形態，不是一個獨立的「產品」，而是內嵌在各類物理系統中的基礎能力。它藏在自動駕駛的模擬後台，藏在機器人的動作規劃模組裡，藏在工廠產線的預判系統中，默默完成預判、試錯、修正的工作。大多數時候，用戶甚至感知不到它的存在。

那才是世界模型的時代，當然它也可以不叫世界模型。

具身智能中的世界模型：超越視覺生成的未來之路

世界模型並不完全等同於「生成畫面」

VLA 已死？世界模型不是革命，而是補位

世界模型尚未落地，概念虛火已先被炒起