從代碼到認知：深入探討機器人大腦的演進

作者：Matt White, Linux Foundation 全球 AI 首席技術官

編譯：Felix, PANews

人形機器人

王興興（宇樹科技 CEO）與 Matt White

幾週前在上海時，一位一起旅行的朋友（聰明、平時會看新聞和觀察事物，但不太了解機器人技術）在晚餐時問了整個旅程中一直期待的問題。

我們看到到處跑的機器狗、在宇樹辦公室演示舞台上表演功夫的人形機器人，還有我們看到的疊衣服的機械臂。它們是怎麼做到的？它們是由大型語言模型（LLM）驅動的嗎？這到底是怎麼運作的？是不是有某種語言模型在控制它們的動作？

這是一個很好的問題，坦白說：在某種程度上是這樣，但真實的故事遠比這有趣。你在社交媒體上看到的機器人並非穿著金屬外殼的 ChatGPT。它們運行著一套技術棧（多層 AI 協同工作）。這套技術棧過去三年的變化比過去三十年還要大。語言模型是其中的一部分。視覺模型、動作模型、行為樹、經典控制迴路，以及一種名為「世界模型」的新興系統家族，也都是其中的重要組成部分。而「世界模型」或許是所有發展中最重要的一項。

這是一篇長文，會從頭說起，然後逐步講述每一次重大變革，最終到達現在所處的階段：機器人不僅能夠對世界做出反應，還能想像世界。

一：前 LLM 時代：當機器人還只是軟體的時候

幾十年來，製造機器人意味著編寫大量代碼，而且幾乎所有這些代碼都不需要學習。

經典的工業機器人是由精心設計的模組堆疊而成的塔狀結構。例如上世紀 90 年代焊接豐田底盤的橙色機械臂，或 2000 年代初波士頓動力公司的 BigDog。

Perception: Filter camera footage, perform edge detection, and use geometric matching to identify workpiece positions.
狀態估計：結合輪式編碼器、陀螺儀和加速度計（感測器融合）來確定機器人的位置和移動速度。
規劃：給定目標姿態，使用 A* 或 RRT 等算法在已知地圖中計算出一條無碰撞的路徑。
控制：在最底層，PID 控制器每秒成百上千次地調整電機扭矩以遵循該路徑。

這些層級通常由不同實驗室的不同人員編寫，並經過極其細緻的拼接而成。行為（例如「如果杯子是紅色的就拿起來，否則等待」）被編碼為狀態機或行為樹：即機器人逐步執行的流程圖。

人形機器人

這種方法的優勢顯而易見。它具有可預測性，符合安全標準。這就是為什麼你的汽車配備了有效的 ABS 防抱死制動系統。

缺點同樣顯而易見。這樣的機器人只能在工程師預想的場景下才能發揮其智能水平。一旦把它放到新的工廠、新的光照條件或新的杯子顏色中，它就會崩潰。它的泛化能力幾乎為零。

二：機器學習悄然介入

在 2010 年代，深度學習開始解決感知層的問題。那些在 ImageNet 圖像分類任務中擊敗人類的卷積神經網絡（CNN），可以被重新訓練，用於檢測物體上的抓握點、分割房間內的傢俱，或識別人體姿態。突然之間，位於技術棧頂端的「感知」層不再需要人工設計，你可以直接對其進行訓練。

隨後，學習機制延伸至「控制」層。加州大學伯克利分校、DeepMind 和 OpenAI 的研究人員表明，強化學習（讓機器人智能體在模擬環境中嘗試數百萬次並強化有效行為）可以產生令人驚訝的熟練步態、手部物體操作（OpenAI 於 2019 年單手解魔方是一個里程碑），以及適應不同地形的運動策略。

另一個並行的研究方向是模仿學習，通常被稱為行為克隆：記錄人類遙控機器人完成某項任務的幾百次嘗試，然後訓練神經網絡來預測人類根據機器人所觀察到的情況會採取什麼行動。

關鍵在於：每個學到的策略都過於狹窄。訓練一個網路去拾起一個紅色積木，它就不知道如何處理一個黃色杯子。訓練它在草地上行走，它卻會在瓷磚地上摔倒。泛化能力仍是亟待解決的難題。

值得一提的是，這一時期出現了一個基礎架構，它至今仍支撐著幾乎所有東西：ROS，機器人操作系統（首次發布於 2007 年 11 月）。ROS 並不是 Windows 或 Linux 意義上的操作系統，而是一個中間件框架，一種通用的機器人管道系統。它允許「攝像頭節點」、「導航節點」、「機械臂控制器節點」以及其他數十個節點通過共享總線發布和訂閱訊息。

目前版本的 ROS2 運行於全球絕大多數科研和商用機器人的底層，從史丹福大學的實驗室到中國的人形機器人初創公司，無一例外。當人們談論機器人的「作業系統」時，幾乎總是指 ROS2 及其上運行的各種感知、規劃和控制軟體套件。

人形機器人

ROS2：它不是作業系統，而是讓獨立的機器人軟體相互通信的通用管道

三：LLM 在機器人領域的應用

接著，ChatGPT 誕生了。

突然間出現了一個這樣的東西：LLM。它能夠閱讀簡單的英語指令，進行多步推理，編寫代碼並調用函數。機器人專家幾乎立刻意識到，這正是他們多年來一直努力解決的缺失環節。要讓機器人在家庭或辦公室中完成一些有用的任務，最困難的部分通常不是電機控制，而是人機互動：人類如何告訴機器人做什麼，以及機器人如何將這個目標分解成它已知如何執行的原子動作？

第一波將 LLM 應用於機器人的工作，是將語言模型視為位於 ROS 之上的一種自然語言編譯器。模式如下：

請把廚房檯面上的咖啡杯拿來，放到我的桌子上。
LLM 根據機器人可用原子技能列表生成計劃：可以是函數調用序列、狀態機，也可以是用 XML 編寫的行為樹。
ROS2 節點會逐步執行該計劃。如果某個步驟失敗，則會將失敗資訊報告給 LLM，以便 LLM 重新規劃。

谷歌 2022 年的 SayCan 項目是這一理念的一個非常簡潔的版本：LLM 提出技能，一個獨立的「可供性」模型評估每個技能當前成功的可能性，機器人選擇聯合得分最高的技能組合。華為研究實驗室主導的 ROS-LLM、ROSGPT 和 ROSA 等開放框架推廣了這種模式。

這的確是一次意義重大的飛躍。突然間，你可以告訴機器人「清理桌子，把可回收物放進藍色垃圾桶」，它就會嘗試執行一些合理的操作。但請注意，這裡仍然存在一些問題：語言模型仍處於規劃層。實際的動作指令仍由底層那些經過精心設計或專門訓練的控制器生成。語言模型只是一個智能調度器，它並不負責驅動。

人形機器人

四：視覺-語言-動作模型（VLA），當大腦開始驅動機器人

人形機器人

Keenon XMAN-R1 機器人正在北京 Galbot 公司的自動化藥房中從貨架上取藥。只需 10 萬美元

下一次飛躍更艱難，也更重要。研究人員提出了一個更具雄心的問題：如果模型不僅能進行規劃，還能直接生成動作指令呢？如果將攝像頭圖像和語言指令直接輸入到一個神經網絡中，就能得到下一毫秒的關節運動呢？

這就是視覺-語言-動作模型（VLA）。它現在是人形機器人和四足機器人領域的主流範式。

首個廣為人知的視覺語言機器人是谷歌 DeepMind 於 2023 年推出的 RT-2。其巧妙之處在於：使用一個大型視覺語言模型（該模型已訓練用於圖像描述和問題解答），並繼續使用機器人演示數據對其進行訓練，但將機器人動作視為另一種需要預測的標記。同一個神經網絡原本可以輸出“貓坐在墊子上”，現在卻可以輸出一系列標記，編碼“將右爪向前移動 3 厘米，合攏爪子，抬起 5 厘米”。推理和行動都在同一個模型中完成。

隨後，在 2024 年中期，一個由史丹福大學領導的團隊發布了 OpenVLA，這是一個擁有 70 億參數的開源 VLA 模型，它基於 Open X-Embodiment 數據集進行訓練。該數據集彙集了來自 21 個不同研究實驗室、涵蓋 22 種不同機器人身體的超過一百萬個訓練片段。這是谷歌以外的人首次可以下載通用機器人模型並開始進行修改。它一夜之間改變了整個領域。

如今，领先的 VLA 雖然數量不多，但發展迅速：

來自 Physical Intelligence 的 π0 和 π0.5：出色的任务適應性。
NVIDIA Isaac GR00T N1.7：開放權重、商業授權，專為人形機器人設計，是大多數中國硬體公司目前正使用其自身數據進行後訓練的模型。
Figure AI 的 Helix 和更新的 Helix-02：專有技術，但在架構上非常重要。
AgiBot 的 Genie Envisioner：基於中國世界模型的平台。
SmolVLA、NORA、ACoT-VLA、CogACT：學術界湧現出越來越多的 VLA，它們探索著不同的設計方向。

VLA 的工作原理（不涉及數學公式）

可以將 VLA 想像成將三路輸入訊號融合為一路輸出訊號。

第一個數據流是視覺數據。RGB 攝像頭（有時是深度傳感器或激光雷達），有時是指尖上的觸覺傳感器，由視覺編碼器（通常是像 DINOv2 或 SigLIP 這樣的 Transformer 模型）進行處理，該編碼器將每張圖像壓縮成幾百個“視覺 token”，概括機器人所看到的內容。

第二個數據流是語言。你的指令（“把螺絲刀遞給我”）就像在 ChatGPT 中一樣被轉換為 token。

這兩個數據流被連接起來，並輸入到一個 Transformer「主幹」（通常是像 Qwen3 或 Llama 這樣的中小型開源語言模型）。這個主幹負責推理，將它看到的資訊與它被詢問的資訊結合起來。

第三個數據流：行動，從另一端流出。這裡是各種架構設計產生分歧的地方：

離散動作 token：模型直接生成可解碼為關節角度或末端執行器位置的 token，就像 ChatGPT 生成單詞一樣。這種方式簡單，但在高頻運行時會產生卡頓。
擴散或流匹配（flow-matching）動作頭：一個獨立的微型網絡接收主幹的輸出，並去噪生成一條平滑的關節位置軌跡，就像圖像擴散模型一樣，只不過生成的是運動。這就是 π0 的做法，產生的動作更平滑、更自然。
Action chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

人形機器人

在 VLA 模型中：兩個輸入流輸入，運動指令輸出，推理和行動融合在一個網絡中。

這就是至關重要的架構轉變：推理和行動不再分離。教會神經網絡識別杯子，也教會了它如何抓取杯子。正是這種耦合使得 VLA 能夠進行泛化，而它們的前身卻無法做到。

五：雙腦策略，LLM 和 VLA 如何協同工作

這裡有一個在行銷中很少明確解釋的細節。如今性能最佳的人形機器人並非運行單一的 VLA 系統，而是運行兩個速度不同的模型，彼此通信。這有時被稱為雙系統或系統 1 / 系統 2 架構，借鑑自 Daniel Kahneman 的心理學框架，該框架認為人類擁有一個快速的直覺大腦和一個緩慢的深思熟慮的思考大腦。

Figure AI 的 Helix 讓這種設計成為經典，現在它（及其變體）幾乎被處處效仿。尤其重要的是，NVIDIA 的 GR00T N1.7 採用了這種設計，大多數中國人形機器人也採用了這種設計。其結構如下：

系統 2（S2）：慢思考大腦。一個擁有 70 億參數的視覺-語言模型，運行頻率約為 7–9 Hz（即每秒 7 到 9 次）。它的任務是觀察場景、解析指令、進行多步推理（如，“碗在麥片盒後面；我需要先移開盒子”），並發出高層次意圖——通常是一組緊湊的內部向量，而非文字本身。
系統1（S1）：快速反應大腦。一個小得多（約 8000 萬參數）的視覺運動策略模型，運行頻率為 200 Hz。它接收 S2 的意圖向量加上最新的感測器數據，輸出連續的關節指令。它沒有任何實際意義上的「思考」，只是做出反應。

最近，Figure 公司的 Helix-02 增加了一個系統 0（System 0）。它位於雙腦系統之下，是一個反射層，而非第三認知層。這是一個擁有 1000 萬個參數、運行頻率為 1 kHz 的網絡，負責處理底層的平衡和全身協調，用神經控制器取代了超過十萬行的手寫運動控制 C++ 代碼。你可以把 S0 想象成一條後天習得的脊髓：它不進行推理或計劃，只是負責保持身體直立和協調，而思考則由上方的雙腦系統完成。

人形機器人

現代人形機器人的雙腦架構：系統 2 思考緩慢，系統 1 反應迅速——其下方還有一個系統 0 反射層，用於保持平衡、觸覺接觸和全身協調

這種劃分源於物理學的限制。如果每 200 毫秒（這是一個大型 VLA 的運行速度）才發出一次運動指令，機器人的動作會像在水下移動一樣遲緩。運動指令的更新速度必須快於它所控制關節的自然振盪，這意味著每秒需要成百上千次更新。沒有任何一個 70 億參數的 Transformer 模型能在電池驅動的機器人上跑得這麼快。

因此，認知任務被分工：龐大而緩慢的模型負責思考；小巧而快速的模型負責行動。它們並非用英語交流，而是通過學習到的潛在向量進行溝通：緩慢的模型發出抽象的目標，而快速的模型則知道如何解讀它。

六：雲、邊緣計算以及「大腦」的放置問題

這些計算究竟在哪裡進行？

如今，機器人團隊之間幾乎形成了一種強烈的、近乎意識形態的共識，即攸關安全的核心控制迴路必須在本地運行。原因有二：

延遲。WiFi 或蜂窩網絡的往返傳輸時間，樂觀估計也有 30-80 毫秒。而動作指令需要每 1-5 毫秒更新一次。這樣的網絡迴圈根本無法正常運行。

可靠性。機器人在工廠、倉庫、廚房、醫院等場所運作。網絡隨時可能斷線。如果一斷 Wi-Fi 機器人就停擺，那它將成為一種安全隱患。

因此，現代的劃分大致如下：

板載（本地），運行在類似 NVIDIA Jetson Thor 或 AGX Thor 模組（約 2,000 TFLOPS、128 GB 記憶體、40–130 W 功耗）的設備上：

S0/S1 的所有功能：平衡、運動、精細動作控制。
VLA 本身（系統 2）為了適應硬體限制，越來越多地被量化為 FP8 或 FP4 格式。如今 20 億到 70 億參數範圍的模型可以在設備端運行。
感知、感測器融合，以及可覆蓋任何其他操作的安全監控程式。

雲端或遠端伺服器（如果存在的话）：

對話式介面（“嘿，機器人，我晚飯該做什麼？”）：這些介面可以容忍延遲。
集群學習：數千台機器人將遠端操作數據發送回伺服器，以便彙總至下一版本模型中。
需要進行大規模的長期規劃，可能會採用前沿規模模型。
操作員儀表板和監控。

此外，還有一個日益壯大的中間層：位於工廠或倉庫中的本地邊緣伺服器，它們透過本地網路與機器人叢集通信，延遲僅為個位數毫秒級。更大型的 LLM 可能就部署在這個層級，負責執行單個機器人無需自行管理的高級調度任務。

中國的人形機器人浪潮正是基於這一假設而構建的：宇樹（Unitree）、智元（AgiBot）、小鵬 IRON、傅利葉（Fourier）、逐際動力（EngineAI）。它們的機器人配備了板載計算能力（通常是 Jetson，有時也使用華為 Ascend 等國產晶片），而雲端則用於集群學習和對話介面，而非控制迴路。

人形機器人

機器人大腦實際運行的位置：安全關鍵迴路在本地運行，雲端用於處理可以等待的事項

七：為何開源模型悄然成為焦點

如果只看演示，你可能會認為這個領域是由少數幾家資金雄厚的美國公司主導的。但事實遠比這複雜。物理 AI 的發展速度在很大程度上是由任何人都可以下載和微調的開源權重模型決定的。

以下列舉的模型雖不多，但意義重大：

OpenVLA（斯坦福大學）：首個開源的 7B 通用機器人模型。
NVIDIA Isaac GR00T（N1、N1.5、N1.7）：開源權重即將推出，商業授權也即將上線，該模型基於數萬小時的人類自我中心影片進行訓練。GR00T N1.7 將於 2026 年 3 月發布，屆時任何擁有類人機器人的用戶均可免費使用其雙系統架構。
Physical Intelligence 的 π0：發布用於研究的權重。
NVIDIA Cosmos：開放世界基礎模型。
AgiBot World：來自上海初創公司的龐大開源數據集，包含遠程操控人形機器人的演示。
Hugging Face 的 LeRobot：一個開放的庫，已成為上述所有平台的匯聚之地。
Mimic robotics 的 mimic-video：一種開源的視頻-動作模型，其樣本效率比傳統 VLA 高出 10 倍。

之所以重要，有兩個原因。首先，機器人初創公司不必再花費數千萬美元來預訓練一個基礎模型：它們可以拿著 GR00T 或 π0，然後用自己機器人的數據對其進行後訓練。宇樹、逐際動力、Booster、Galbot 以及幾十家規模較小的中國公司正是這樣做的。這就是為什麼一家只有幾百名員工的公司，也能產出能走路、能說話、能疊衣服的人形機器人的原因：它們是站在開源技術棧的肩膀上。

其次，開源模型是解決安全性問題的唯一現實途徑。如果一個完全閉源的模型在工廠車間的機器人身體內運行，而外界對它的推理邏輯毫無洞察能力，這無疑是一場監管噩夢。開放式模型讓審計人員、研究人員和操作員能夠真正檢查機器人到底被訓練了些什麼。

八：還有哪些問題尚未解決

如果你看過足夠多的機器人演示影片，你也一定看過很多機器人故障影片。當前這一代的 LLM+VLA 機器人確實令人印象深刻，但也確實存在明顯的局限性。以下是它存在的問題：

任務中途恢復。VLA 處理意外變化的能力比以往任何技術都更強。但當事情真正出錯時（例如抓取失誤、物體滾動、有人闖入工作區），重新回到正軌依然是弱項。機器人會盲目重複失敗動作。
樣本效率。從零開始訓練一個 VLA 需要上萬小時的遠端操作數據。而人類幾分鐘就能學會操作一個新工具。這個效率差距是巨大的。
跨實體泛化。在斯坦福實驗室中用 Franka 機械臂訓練出來的模型，並不能完美遷移到深圳倉庫裡的宇樹人形機器人上。兩者的物理形態不同。
長期任務。任何需要超過 30-60 秒的連貫行為，且包含多個子目標的任務，都容易偏離目標。「給我做早餐」這樣的任務始終遙不可及。
物理常識。VLA 接受的是模仿訓練，而非理解訓練。它並不真正理解“碰倒一杯水”時水會倒出來的原理。它只是見過一些例子，並根據模式匹配來預測接下來會發生什麼。
空間推理能力。儘管它們是多模態的，但在「繞過障礙物而不是穿過它」或「把這些東西疊起來不倒」之類的任務上卻出奇地弱。

最後這一系列弱點，促使該領域開始押注於一種截然不同的模型。

九：世界模型

不妨設想一下：如果不去訓練機器人預測動作，而是訓練它預測動作的後果，結果會如何？

世界模型（World Model）是一種神經網絡，它根據當前世界狀態（通常是一段影片或一連串幀圖像）和預設動作，預測世界接下來的樣子。簡單來說，你可以把它想像成一個帶有方向盤的學習型影片預測器。你給它看最後一秒的攝影機畫面，並告訴它「機器人將手臂向前移動 10 厘米」，它就能生成一段逼真的影片，預測下一秒的畫面。

這為什麼重要？

因為一旦有了世界模型，機器人就能在行動前進行思考。它可以預先構思三到四種不同的候選行動，預測每種行動的結果，進行評分，並選擇最佳方案。所有這些都在電機運動之前完成。這正是國際象棋引擎的運作方式：它不記憶棋步，而是模擬未來。以前在物理機器人領域從未擁有過這種能力，因為從未擁有過足夠精確的模型，來模擬紛繁複雜的真實世界。

人形機器人

世界模型允許機器人模擬多種可能的未來情境，對其進行評分，並在任何馬達啟動前選擇最佳方案

2026 年的世界模型究竟是什麼樣子？

目前最先進的世界模型種類繁多，但發展迅速。以下是一些模型：

NVIDIA Cosmos：一系列開放世界基礎模型，包括 Cosmos Predict 2.5（生成模型）、Cosmos Transfer 2.5（可控模擬模型）、Cosmos Reason 2（用於機器人的視覺語言推理器）以及最新的 Cosmos Policy。Cosmos Policy 更進一步，透過對世界模型進行後訓練，直接輸出動作以進行控制。Cosmos 使用數萬 GPU 小時的視頻數據進行訓練（Cosmos Predict 2.5 是該系列中的世界模型）。
DeepMind Genie 3：一款交互式世界模型，能夠根據文本提示生成完全可導航的環境，幀速率為每秒 24 幀，並能持續穩定運行數分鐘。最初是為遊戲環境而設計。
Meta V-JEPA 2：在預訓練階段使用了超過 100 萬小時的網路影片，然後僅用 62 小時的機器人影片進行動作條件化訓練。在不同實驗室的真實機器人手臂上，無需任何特定任務訓練，即可實現 80% 的零樣本拾取放置成功率。「JEPA」方法在架構上與其他方法截然不同。
DeepMind Dreamer 4：僅使用離線數據，無需任何環境互動，便學會了在 Minecraft 中收集鑽石（一項 2 萬步的任務）。這證明了在虛擬世界中進行真正的強化學習是可行的。
AgiBot 的 Genie Envisioner：來自中國的統一世界模型平台，使用超過 3000 小時的真實世界人形機器人操作影片進行訓練。它既可以生成預測的展開軌跡，也可以生成可執行的動作軌跡。AgiBot 使用 NVIDIA Cosmos Predict 2 作為骨幹網路，並使用自有資料進行後訓練。這正是之前描述的「開源技術棧+自有資料」模式。
Toyota Research Institute 基於 Cosmos 的世界模型：用於遠端操作數據增強和導航。

人形機器人

2025–2026 年最重要的六個世界模型，每個模型都對機器應如何學習物理學提出了不同的設想。

10：替代架構，因為該領域尚未定論

建構世界模型並沒有統一的標準。架構之爭是目前 AI 領域最有趣的爭論之一，它直接影響機器人未來能夠做什麼。以下三個陣營值得注意：

像素級視頻擴散（Cosmos/Sora 學派）：使用擴散模型預測未來幀的實際像素。優點是可作為合成資料生成器，可以渲染從未發生過的全新機器人演示。缺點是成本高昂，有時會違背物理規律，而且預測永遠不會看到的像素是一種浪費。

聯合嵌入預測架構，簡稱 JEPA（LeCun 學派）：不預測像素，而是預測下一幀的抽象表徵。拋棄紋理細節，只保留場景中事物的語義本質。優點是高效，專注於對行動至關重要的因素。缺點是使用起來較為困難。V-JEPA、V-JEPA 2 和新型 JEPA-VLA 混合模型正在探索這一領域。

潛在動作世界模型（Genie/Dreamer 流派）：學習如何將整個影片壓縮為一種潛在的「動作語言」，這種語言能捕捉行為結構，然後訓練世界模型，使其能根據下一個潛在動作預測下一個潛在狀態。優點是允許你使用無動作的網路影片進行訓練，然後再加入少量真實機器人資料。缺點是潛在動作無法被人類理解，安全分析變得複雜。

人形機器人

像素擴散、JEPA 和潛在動作：目標相同，構建世界模型的方式卻截然不同

十一：基於世界模型的機器人實際應用

如果快進幾年，前沿人形機器人的架構可能看起來像這樣：

VLA 上搭載著一個世界模型。當機器人遇到新情況時，它會執行類似以下的操作：

VLA 提出了一些後續行動的候選方案（它仍是策略）。
世界模型會獲取每個候選動作，並模擬 1-3 秒的假想影片。
價值判斷者會根據設想的結果進行評分：杯子被拿起了嗎？有東西掉下來了嗎？人被撞到了嗎？
機器人會選擇得分最高的行動，並僅執行其第一部分。
Real sensor data feedback; loop repetition.

這就是模型預測控制，這項技術多年來一直用於穩定火箭和四旋翼飛行器，但它使用學習到的世界模型取代了人工推導的物理方程。它的可擴展性在於，世界模型是基於數百萬小時的影片進行預訓練的，而不是因為有人為廚房環境編寫了納維-斯托克斯方程（Navier-Stokes equations）。

其益處層層遞進：

恢復情況有所改善。如果抓取動作發生失誤，世界模型可以設想多種糾正路徑，並選擇最有希望的路徑。
Generalization ability has been enhanced. The world model trained on web videos has experienced several orders of magnitude more "physical phenomena" than any robot teleoperation dataset.
長期規劃變得可控。在想像中規劃，而不是在現實中規劃。
模擬與現實之間的差距縮小了。以前需要使用自行搭建的模擬器（例如 Isaac Sim、Newton 物理引擎）進行訓練，然後寄望於訓練結果能遷移到實際應用中，而現在則可以使用經過訓練、能與真實影片匹配的模擬器進行訓練。因此差距更小。
合成數據呈爆炸式增長。一個世界模型幾乎可以免費生成數百萬條不同的機器人軌跡，涵蓋不同的光照、材質和物體配置。這解決了該領域最大的瓶頸之一。

此外，它還具有一項重要的安全優勢。能夠模擬動作後果的機器人可以拒絕執行危險操作：並非因為預設規則的限制，而是因為它預想到未來可能會有人受傷。

人形機器人

兩種移動方式：VLA 會根據所見做出反應；世界模型機器人則會在移動前進行思考

12：還應該知道的事

真正的核心問題在於數據：如果無法為模型提供數據，世界上所有的架構創新都無濟於事。目前，遠程操作（人類穿戴 VR 設備遠程木偶式操縱機器人）是主要的技術瓶頸。一家機器人公司的競爭護城河越來越取決於其數據採集流水線，而非模型本身。智元機器人已建立了充滿操作員的倉庫。英偉達 GR00T N1.7 的靈巧度擴展定律表明，更多的人類第一人稱視角影片可直接、可預測地提升機器人的靈巧度。這也是中國具有結構性優勢的部分原因：更低的數據採集勞動力成本、更寬容的部署環境，以及國家積極協調供應鏈。

模擬是一個平行宇宙。NVIDIA 的 Isaac Sim、全新的開源 Newton 物理引擎（1.0 版本將於 2026 年 4 月正式發布）以及 Omniverse 平台，讓企業能夠在數百萬個並行模擬環境中訓練機器人，而無需將其部署到現實世界。大多數看似「機器人智能」的功能，實際上是在模擬環境中培養，然後移植到硬體上的。

經濟效益已開始顯現。宇樹在 2025 年交付了約 5500 台人形機器人，並計劃在 2026 年達到 1 萬至 2 萬台。平均價格在兩年內從 8.5 萬美元降至 2.5 萬美元。宇樹的 R1 售價為 5900 美元。Noetix Bumi 的上市價格為 1400 美元。人形機器人硬體的價格正逐漸接近消費電子產品的價格水平，而其內置的 AI 技術仍落後於演示產品。這種差距終將縮小，屆時，市場規模的提升將對整個行業產生顯著影響。

故障模式看起來很奇怪。當基於 LLM 的機器人出現故障時，它們的故障方式往往是傳統機器人無法做到的。例如，自信地做錯事、「幻覺般地」感知到某些功能、陷入與自身規劃器的對話迴圈。傳統機器人界對此抱有相當程度的懷疑，這種懷疑不無道理，他們堅持認為學習系統必須被安全監控和行為約束。目前最可靠的已部署機器人是混合型的：VLA 大腦被放置在手工設計的安全籠內。

“ChatGPT 時刻”的敘事是一個有用但具有誤導性的比喻：黃仁勳一直告訴所有人，機器人的 ChatGPT 時刻已經到來。他之所以這麼說，是因為英偉達賣的是鏟子和鶴嘴鋤。更誠實的版本是：目前大約處於物理 AI 的 GPT-2 時代。它很強大，能讓你感到驚艷；但還不夠強大，無法在無人監管的情況下部署。它正在快速迭代，但尚未迎來病毒式普及的爆發點，而是一條緩慢而堅定的上升軌跡。

結語

人形機器人

宇樹四足機器人的演進歷程（從右至左）

在宇樹辦公室的演示中，五個 G1 人形機器人表演武術，動作經過精心編排，機載 VLA 式控制器進行微調，遠端操作員則確保一切順利進行。從根本上來說，它並非完全自主。但整個流程：感知、規劃、運動控制，都正被神經網絡所取代。兩年後，同樣的機器人無需編排就能完成同樣的動作，因為它已經預先構思了整個動作，並選擇了最佳版本。

本文所描述的整個發展歷程：從手工編寫的控制器，到機器學習感知，再到 LLM 規劃器，再到 VLA，再到雙系統架構，最終到世界模型，實際上是機器人智能所在位置的緩慢轉變。它始於工程師的頭腦，然後演變為手工編寫的代碼，接著進入感知層，進入規劃器，進入策略層。而現在，它最終正朝著學習世界本身的模型發展。

每一次轉變都使機器人變得更加通用、更具適應性、更加有用。如果世界模型轉變奏效，它將真正賦予機器人強大的能力：強大到足以讓問題不再是“機器人能做什麼？”，而是“我們應該讓它們做什麼？”

相關閱讀：盤點30多家人形機器人公司：誰能在2026年勝出？