具身智能中的世界模型:超越視覺生成的未來之路

iconMetaEra
分享
AI summary icon精華摘要
本文探討具身智能領域的世界模型發展路徑。當前存在兩條路線:硅谷的「替代派」追求以 WAM 役代 VLA,國內主流的「融合派」則將世界模型作為 VLA 的能力補集。文章指出世界模型面臨三重泡沫——定義泛化、算力門檻高、落地困難。文章認為真正的世界模型應嵌入真實業務閉環,協助機器在物理世界中行動,而非僅追求生成畫面的逼真度。

文章作者、來源:先驗實驗室

從 VLA 到 WAM,一場被高估的革命和被低估的進化。

過去半年,具身智能領域有兩場最熱鬧的輿論狂歡。一場屬於螢幕:從 Sora 到各類視頻生成模型接連秀出肌肉,一杯水傾倒漫開的細節、連續空間裡的人物運動,讓 “AI 再造現實” 的敘事衝上頂峰,“世界模型來了” 的驚呼此起彼伏。另一場屬於墓碑:英偉達首席研究科學家 Jim Fan 用一張 WAM(World Action Model)站在 VLA(視覺 - 語言 - 動作模型)墓碑前的 meme 圖,宣告 “VLA 已死,世界模型萬歲”,直接將路線之爭推到台前。(本文僅討論具身智能的世界模型)

兩場狂歡共享同一個核心詞:世界模型。

但諷刺的是,在具身智能領域,討論的人越多,它的面貌就越模糊:有人把生成逼真視頻稱為世界模型,有人把機器人動作預演稱為世界模型,也有人把自動駕駛模擬環境稱為世界模型。在同一個概念下,卻裝著完全不同的技術目標與商業訴求。

當前世界模型最大的危險,從來不是「定義不清」,而是所有人都在用它最容易展示、最容易製造傳播爆點的一面,定義它的全部價值。當「造世界」的炫技蓋過「用世界」的本質,世界模型正被最會講故事的人,帶離它真正該去的地方:Physical AI 的真實物理場景。

世界模型當然需要「造世界」的能力。沒有那些令人驚艷的生成演示,它不會如此迅速地走進公眾與資本的視野。但對 Physical AI 產業而言,生成一個世界,從來都只是問題的開始。世界最終要被控制、被驗證、被修正,最終成為機器行動前的預演空間、決策依據。視頻生成可以推開世界模型的大門,但替它走不完通向真實物理世界的路。

我們從不缺乏新概念與新敘事,具身智能一定會走出自己的通用之路。屆時,至於這條路叫 VLA、叫 WAM,還是其他什麼名字,或許將根本不再重要。

畢竟,它已嵌入我們的生活。

世界模型並不完全等同於「生成畫面」

還記得 Sora 嗎?

當年,OpenAI 發布 Sora 時,報告標題即為 “Video generation models as world simulators”,宣稱視頻生成模型有望成為通往「物理世界通用模擬器」的可行路徑。Sora 當時展示的長視頻中,鏡頭運動、局部 3D 一致性與物體狀態保持能力,讓公眾首次直觀感受到:AI 似乎真的在學習「構建一個世界」。相比文本和圖片,視頻天然貼合人類對「世界」的直覺感知——有時間、有空間、有運動、有連續變化,很容易讓人產生「模型已經掌握物理規律」的錯覺。

這類能力天生適合在發布會上展示,也最易吸引資本與媒體的關注。久而久之,「視頻生成 = 世界模型」成了許多人默認的認知入口。

這當然不是錯誤。在數位原生場景中,視頻生成路線本就是高效的解決方案,且已湧現出眾多獨角獸公司。它們的產品可用於遊戲行業即時生成動態場景,既降低美術成本,又提升玩家自由度;在航空航天、高端製造等高試錯成本領域,則可用於擴展測試邊界、豐富模擬場景,同樣具有明確的商業價值。此時生成的「世界」並非僅供觀眾觀看的畫面,而是可互動、可試錯的模擬環境。

真正的誤讀發生在跨界之時,當世界模型碰到具身智能時,很多人默认,模型能生成一個連續逼真的數字世界,就等於它掌握了物理世界的理解、預測與行動能力。

北京智源人工智能研究院院長王仲遠對此的判斷一針見血:當前被廣泛當作世界模型代表的視頻生成技術,本質只是像素級的世界模擬。「視頻生成模型可以生成一群豬在天上和飛機一起飛,因為它的訓練數據裡包含大量科幻電影內容,它的目標從來就不是還原真實物理世界的規律。」

一個經典的具身情境足以說明差距:抓取杯子。模型能從不同視角生成外觀一致的杯子,這是視覺一致性,是它從視頻數據中學到的;但伸手觸碰後,摩擦力有多大?材質能否承受相應的握力?杯子落在桌面上,是因為模型記住了「杯子通常在桌上」,還是真正理解了重力、支撐力與接觸約束?複雜的力學響應、接觸後的狀態變化、真實物理定律的因果約束,都不是一段生成視頻能夠涵蓋的。當一輛橫著走的汽車被生成出來,還未經校驗就進入自動駕駛的訓練鏈條,真實物理世界遲早會給予慘痛的反噬。

換句話說,視頻生成是世界模型的一種表現形式,已在許多場景中落地,但絕非具身智能所需的世界模型,更不是 Physical AI 語境下的核心形態。用「造世界」的視覺效果來定義具身智能的世界模型,本質是用數字世界的尺規去衡量物理世界的問題。

VLA 已死?世界模型不是革命,而是補位

“VLA 已死,WAM 接班” 是產業內部最流行的敘事。

過去兩年,VLA 一直是具身智能的主流路徑。它沿用大語言模型的預訓練思路,通過海量遙操作數據建立「感知 - 指令 - 動作」的映射,讓機器人從生硬的重複動作,轉向理解自然語言、拆解複雜任務。產業內所有主流玩家,都曾以 VLA 為核心技術底座。

但 VLA 的短板也非常明確:本質是來自模仿學習的記憶與映射,缺乏對物理規律的底層理解,一旦遇到數據中從未見過的新場景、新物體,泛化能力就會迅速失效。Jim Fan 提出的 WAM 路線,恰恰針對這一痛點。其核心邏輯是從「語義理解」轉向「物理預測」:不再直接輸出動作,而是先預測未來的世界狀態,再反推動作序列,等於讓機器人在行動前先在腦中「預演」一遍後果,以此提升對陌生場景的適應能力。

於是「顛覆論」迅速發酵,VLA 是過時的舊範式,世界模型才是具身智能的下一代答案。但在真實的產業實踐裡,事情遠非「非生即死」這麼簡單。

行業正分化出兩條清晰的路線,背後是不同的技術哲學與商業訴求:

一條是由矽谷主導的「替代派」。以英偉達、Google DeepMind 為代表,依託充足的算力與數據儲備,追求徹底的範式重構。英偉達在 Cosmos 3 中將語言、圖像、視頻、動作序列納入同一套 Physical AI 世界模型框架,試圖讓生成、模擬、動作預測不再是割裂模塊;Waymo 與谷歌 DeepMind 合作推出的 Waymo World Model,藉助 Genie 3 模型能力,不只是用來生成罕見天氣、動物闖入等長尾場景,重點是讓這些場景受駕駛動作、道路佈局和語言條件控制,用來測試自動駕駛系統在反事實情境下的反應。

這條路野心最大,也最符合「革命敘事」,但門檻極高,是頭部巨頭的遊戲。

另一種是國內更普遍的「融合派」。絕大多數玩家並未選擇推倒重來,而是將世界模型作為 VLA 的能力補集,嵌入現有架構之中。智平方於 2026 年 5 月發布了 VLA 具身大模型 AlphaBrain。它借鑒人腦「大腦-小腦-軀幹」的分工機制,透過「快慢系統」協同配合,將世界模型的「預演」能力內嵌至 VLA 架構內部——慢系統負責環境態勢感知與高層行為規劃,快系統負責精細感測與快速反饋。智平方創始人郭彥東的判斷非常直接:「世界模型和 VLA 完全不衝突,本來就是同一技術路線的一個分支。若想執行更長程的推理任務,就需要世界模型 + VLA,或將世界模型與 VLA 合併。」

Galaxy General 也走得非常遠,他們於今年4月發布的 LDA-1B 模型,在統一框架內同時進行策略學習、物理預測和視覺感知,首次在工業級十億參數規模上實現了世界模型與動作模型的統一,相關成果已入選機器人頂會 RSS,模型權重與訓練代碼已開源。他們不糾結於「選擇 VLA 還是世界模型」,而是更務實地讓預測與執行共享同一個模型,各取所長,各補所短。

在我們看來,「替代」與「融合」沒有絕對的對錯,只是不同階段的不同選擇。VLA 不會真的「死亡」,世界模型也不是顛覆一切的革命,它補上的是 VLA 最缺失的物理預測能力。二者的終局關係,更可能是分層協作,而非你死我活。真正決定路線勝負的,從來不是概念夠不夠新潮,而是誰能先把數據、仿真、真機部署的鏈條跑通,讓機器人真正走進真實場景。

世界模型尚未落地,概念虛火已先被炒起

當概念熱度跑在技術落地前面,泡沫幾乎是必然產物。眼下的世界模型賽道,至少已經浮現出三重值得警惕的泡沫。

第一重是定義泡沫。今天的「世界模型」已變成一個什麼都能往裡裝的筐。Yann LeCun 認為它是抽象層的世界狀態預測,李飛飛將其定義為可交互的 3D 空間表徵,英偉達把它定位成物理 AI 生成式模擬器,創業公司裡有人拿視頻生成湊數,有人把傳統仿真引擎換個名字就叫世界模型。國內宣稱布局世界模型的公司已有數十家,但彼此說的可能根本不是同一件事。當一個技術概念可以被無限解釋,它往往就失去了技術標尺的意義。定義泛化的背後,是融資需求與營銷敘事的共同推動,畢竟,叫「世界模型」,總比叫「視頻生成工具」或「仿真優化方案」更值錢。

第二重是算力泡沫。世界模型的主流訓練路線,建立在海量視頻數據與超大算力的基礎之上,而這恰恰是英偉達的主場。黃仁勳在GTC大會上直言,到2027年Blackwell和Rubin晶片、以及其為具身智能模型等設計的配套系統至少給英偉達帶來1萬億美元收入。某種意義上,矽谷頭部玩家力推「全模態通用世界模型」路線,本身就與英偉達「賣算力基建」的商業邏輯高度契合。但這條路線的投入門檻對絕大多數公司而言堪稱無底洞,過去押注VLA的中小團隊,尚且難以承擔如此規模的沉沒成本,更不用說從零切入世界模型賽道。當所有人都在討論同一條高算力路線,卻很少有人算得清投入產出比,這本身就是泡沫的信號。

第三重,也是最致命的,是落地泡沫。所有概念敘事最終都要回答同一個問題:它到底能不能提升真機表現?而現實是,仿真到真實的遷移鴻溝,不會因為模型名字從 VLA 換成 WAM 就自動消失。視頻裡一個細微的穿模、反重力、邊界模糊,放到機器人訓練裡就會固化成錯誤的物理認知;一個看起來合理但違背物理規律的預測,對真機的誤導甚至比不用模型訓練更嚴重。

螞蟻靈波首席科學家沈宇軍曾指出核心差異:數字世界的生成模型可以追求高清逼真,慢一點沒關係;但物理世界的模型,首要要求是快、穩、準,要能即時輸出反饋、支撐動作。很多團隊執著於在數字世界裡把場景渲染得越來越真實,卻忽略了真實物理交互的數據才是最稀缺的資源。世界模型可以在模擬裡跑出漂亮的指標,但只要還未在工廠產線、物流倉庫、開放道路上驗證出真實價值,它就依然是實驗室裡的技術探索,而非產業級的基礎設施。

那麼,面向 Physical AI 或具身智能的世界模型,到底應該是什麼樣子?答案從來不在發布會的演示影片裡,而在真實場景的需求裡。它的核心評價標準,從來不是「生成的世界夠不夠逼真」,而是「能不能幫機器更好地在物理世界裡行動」,能不能降低試錯成本、能不能提升泛化能力、能不能嵌入真實的業務閉環。

從目前產業的實踐來看,真正走在正確方向上的玩家,都在做同一件事:讓世界模型從「展示導向」轉向「任務導向」。換句話說,世界模型的終極形態,不是一個獨立的「產品」,而是內嵌在各類物理系統中的基礎能力。它藏在自動駕駛的模擬後台,藏在機器人的動作規劃模組裡,藏在工廠產線的預判系統中,默默完成預判、試錯、修正的工作。大多數時候,用戶甚至感知不到它的存在。

那才是世界模型的時代,當然它也可以不叫世界模型。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露