著者:Matt White、Linux Foundation グローバルAIチーフテクノロジーオフィサー
編集:Felix、PANews

王興興(宇樹科技CEO)とMatt White
数週間前に上海で、一緒に旅行していた友人(賢く、普段はニュースを見たり物事を観察したりするがロボット技術にはあまり詳しくない)が、旅の間ずっと待ち望んでいた質問を夕食時にした。
私たちが見かけるあちこちを動き回る機械犬、宇树のオフィスのデモステージで武術を披露する人型ロボット、そして衣類を畳むロボットアーム。これらはどのように実現されているのか?これらは大規模言語モデル(LLM)によって駆動されているのか?その仕組みは一体どうなっているのか?何か言語モデルがそれらの動作を制御しているのか?
これは素晴らしい質問です。正直に言うと、某种程度はそうですが、実際の話はそれよりもはるかに興味深いです。ソーシャルメディアで見かけるロボットは、金属製の外装をまとったChatGPTではありません。それらは一連のテクノロジースタック(複数のAIが協調して動作)を駆動しています。このテクノロジースタックは、過去3年間で過去30年よりも大きな変化を遂げてきました。言語モデルはその一部にすぎません。視覚モデル、アクションモデル、行動ツリー、古典的な制御ループ、そして「ワールドモデル」と呼ばれる新興のシステムファミリーも、重要な構成要素です。そして「ワールドモデル」は、すべての発展の中で最も重要なものの一つかもしれません。
これは長い文章であり、最初から始め、それぞれの重要な変革を段階的に説明し、最終的に現在の段階に到達します:ロボットは世界に反応するだけでなく、世界を想像できるようになっています。
一:前LLM時代:ロボットがまだソフトウェアだった頃
数十年にわたり、ロボットを製造することは大量のコードを書くことを意味し、これらのコードのほとんどすべては学習する必要がなかった。
古典的な産業ロボットは、丁寧に設計されたモジュールが積み重ねられた塔状の構造である。たとえば、1990年代にトヨタのシャシーを溶接したオレンジ色のアームや、2000年代初頭のボストン・ダイナミクスのBigDogなどである。
- 感知:カメラ映像をフィルタリングし、エッジ検出を実行して、幾何学的マッチングで部品の位置を特定します。
- 状態推定:ホイールエンコーダ、ジャイロスコープ、加速度計を組み合わせて(センサーフュージョン)、ロボットの位置と移動速度を特定します。
- 計画:与えられた目標姿勢に基づき、A* や RRT などのアルゴリズムを用いて、既知のマップ上で衝突のない経路を計算する。
- 制御:最下層では、PIDコントローラーがその経路に従うために、毎秒何百回もモータートルクを調整します。
これらの階層は、異なる研究所の異なる担当者が作成し、極めて丁寧に結合されています。行動(例:「コップが赤ければ拿起ち、そうでなければ待つ」)は、状態機械または行動ツリーとしてコーディングされます。つまり、ロボットが段階的に実行するフローチャートです。

この方法の利点は明確です。予測可能で、セキュリティ基準に準拠しています。これが、あなたの車に効果的なABS(アンチロック・ブレーキ・システム)が装備されている理由です。
欠点も明確です。このようなロボットは、エンジニアが想定したシナリオでのみその知能を発揮できます。新しい工場、新しい照明条件、または新しいコップの色に置かれると、動作が停止します。その汎化能力はほぼゼロです。
二:機械学習が静かに介入
2010年代には、ディープラーニングが感知層の課題に取り組み始めました。ImageNetの画像分類タスクで人間を上回った畳み込みニューラルネットワーク(CNN)は、物体のグリップポイントを検出したり、部屋内の家具をセグメンテーションしたり、人の姿勢を認識するために再学習できるようになりました。これにより、技術スタックの最上位にある「感知」層は、もはや手動で設計する必要がなくなり、直接学習できるようになりました。
その後、学習メカニズムは「制御」層に広がった。バークレー大学、DeepMind、OpenAIの研究者たちは、強化学習(ロボットエージェントがシミュレーション環境で数百万回試行し、有効な行動を強化する方法)が驚異的な歩行パターン、手による物体操作(OpenAIは2019年に片手でルービックキューブを解くことに成功し、画期的な成果となった)、および異なる地形への対応する移動戦略を生み出すことを示した。
もう一つの並行研究分野は模倣学習、すなわち行動クローンです:人間がリモコンでロボットを操作して特定のタスクを完了させる試行を数百回記録し、ロボットが観測した状況に基づいて人間がどのような行動を取るかをニューラルネットワークで予測するように訓練します。
すべての鍵は、学習された戦略が過度に狭いということにある。赤いブロックを拾うようにネットワークを訓練しても、黄色のコップを扱う方法を知らない。草地を歩くように訓練しても、タイル床では転倒してしまう。汎化能力は依然として解決すべき課題である。
注目すべきは、この時期に現在でもほぼすべてのものを支える基盤が登場したことです。それはROS(Robot Operating System)で、2007年11月に初版がリリースされました。ROSはWindowsやLinux意义上的操作系统ではなく、中间件フレームワーク、すなわち汎用的なロボットパイプラインシステムです。これにより、「カメラノード」、「ナビゲーションノード」、「ロボットアームコントローラーノード」など、数十のノードが共有バスを通じてメッセージをパブリッシュおよびサブスクライブできます。
現在のバージョンのROS2は、スタンフォード大学の研究室から中国のヒューマノイドロボットスタートアップまで、世界中のほとんどの研究用および商用ロボットの基盤で動作しています。人々がロボットの「オペレーティングシステム」について話すとき、ほぼ常にROS2とその上で動作するさまざまな感知、計画、制御ソフトウェアパッケージを指しています。

ROS2:それはオペレーティングシステムではなく、独立したロボットソフトウェア間で通信するための汎用パイプラインです。
三:LLMのロボット分野における応用
その後、ChatGPTが登場しました。
突然、LLMというものが登場した。これは簡単な英語の指示を読み取り、複数ステップの推論を行い、コードを書き、関数を呼び出すことができる。ロボット工学の専門家たちは、これが長年解決しようとしてきた欠けていた鍵であるとすぐに気づいた。家庭やオフィスでロボットに有用なタスクを実行させる際、最も難しい部分はモーター制御ではなく、ヒューマン・ロボット・インタラクション、つまり人がロボットに何をしてほしいかをどう伝えるか、そしてロボットがその目標を既に実行可能な原子的な動作にどう分解するかである。
ロボットにLLMを適用する第一波の取り組みは、言語モデルをROSの上に位置する自然言語コンパイラと見なすことでした。モードは以下の通りです:
キッチンのカウンターにあるコーヒーカップを取って、私の机に置いてください。
LLMは、ロボットが利用可能な原子スキルのリストに基づいて計画を生成します:関数呼び出しの列、状態機械、またはXMLで記述された行動ツリーのいずれかです。
ROS2ノードは、この計画を段階的に実行します。あるステップが失敗した場合、その失敗情報はLLMに報告され、LLMが再計画を行います。
Googleの2022年のSayCanプロジェクトは、この理念の非常に簡潔なバージョンである:LLMがスキルを提案し、独立した「可能性」モデルが各スキルの現在の成功確率を評価し、ロボットは合計スコアが最も高いスキルの組み合わせを選択する。Huawei研究ラボが主導するROS-LLM、ROSGPT、ROSAなどのオープンフレームワークがこのモードを広めた。
これは確かに大きな飛躍です。突然、ロボットに「テーブルを片付けて、リサイクル品を青いゴミ箱に入れて」と指示すると、それなりの行動を試みます。ただし、ここにはまだいくつかの問題があります。言語モデルは依然として計画層にとどまっており、実際の動作指令は、丁寧に設計または特別に訓練された下位のコントローラーによって生成されます。言語モデルはあくまで賢いスケジューラーであり、駆動を担当するわけではありません。

四:視覚-言語-動作モデル(VLA)、脳がロボットを制御し始めたとき

Keenon XMAN-R1ロボットが、北京のGalbot社の自動化薬局で棚から薬を取出しています。たった10万ドルで
次の飛躍はより困難であり、同時により重要である。研究者はより雄大な質問を提起した:モデルが単に計画を立てるだけでなく、直接アクション命令を生成できる場合はどうなるか?カメラ画像と言語指令を神経ネットワークに直接入力し、次のミリ秒の関節運動を直接得られる場合はどうなるか?
これが視覚-言語-行動モデル(VLA)です。現在、人型ロボットおよび四足ロボット分野での主流パラダイムとなっています。
最初の広く知られているビジュアル言語ロボットは、2023年にGoogle DeepMindがリリースしたRT-2である。その巧みさは、画像の説明や質問応答に訓練された大規模なビジュアル言語モデルを使用し、ロボットのデモデータでさらに訓練することにある。ただし、ロボットの動作を予測すべき別のトークンとして扱う。同じニューラルネットワークは、もともと「猫がマットの上に座っている」と出力していたが、今では「右足を3cm前に動かし、足を閉じ、5cm持ち上げる」という一連のトークンを出力できる。推論と行動はすべて同じモデルで実行される。
その後、2024年半ばに、スタンフォード大学が主導するチームは、Open X-Embodimentデータセットで学習された70億パラメータのオープンソースVLAモデルであるOpenVLAを公開しました。このデータセットは、21の異なる研究ラボから収集された、22種類の異なるロボットボディを含む100万以上のトレーニングフレグメントを統合しています。これは、Google以外の者が汎用ロボットモデルをダウンロードし、修正を開始できる初めての事例でした。これは一晩でこの分野全体を変革しました。
現在、主要なVLAは数は少ないものの、急速に成長しています:
- Physical Intelligenceからのπ0およびπ0.5:優れたタスク適応性。
- NVIDIA Isaac GR00T N1.7:オープンウェイト、商業ライセンス、人型ロボット用に設計され、多くの中国のハードウェア企業が現在自社のデータを使用して後学習しているモデルです。
- Figure AIのHelixおよび更新されたHelix-02:独自技術だが、アーキテクチャ上で重要。
- AgiBotのGenie Envisioner:中国のワールドモデルに基づくプラットフォーム。
- SmolVLA、NORA、ACoT-VLA、CogACT:学術界では、さまざまな設計方向を探求するVLAが次々と登場しています。
VLAの動作原理(数学式を含まない)
VLAを、三つの入力信号を一つの出力信号に融合すると考えることができます。
最初のデータフローは視覚データです。RGBカメラ(場合によっては深度センサーやLiDAR)、時には指先の触覚センサーが、視覚エンコーダー(DINOv2やSigLIPなどのTransformerモデル)によって処理され、各画像はロボットが見た内容を要約する数百の「視覚トークン」に圧縮されます。
二番目のデータフローは言語です。あなたの指示(「ドライバーを渡してください」)は、ChatGPT と同じようにトークンに変換されます。
これらのデータストリームは接続され、Transformer「ボディ」(Qwen3やLlamaなどの小型のオープンソース言語モデルなど)に投入されます。このボディは、見ている情報と質問された情報を組み合わせて推論を行います。
三番目のデータフロー:行動、反対側から流れ出る。ここがさまざまなアーキテクチャ設計が分岐する場所である:
- 離散アクショントークン:モデルは、ChatGPTが単語を生成するように、関節角度やエンドエフェクタの位置にデコード可能なトークンを直接生成します。この方法はシンプルですが、高頻度で実行するとカクつきが発生します。
- 拡散またはフローマッチング(flow-matching)アクションヘッド:主幹の出力を受信し、画像拡散モデルのようにノイズを除去して滑らかな関節位置軌跡を生成する独立したマイクロネットワークです。これはπ0のアプローチであり、より滑らかで自然なアクションを生成します。
- 動作のブロック化:次の単一の命令を予測するのではなく、次の0.5秒間の命令セットを一度に予測することで、振動を滑らかにします。

VLAモデルでは:2つの入力ストリームが入力され、運動指令が出力され、推論と行動が1つのネットワークに統合されます。
これが重要なアーキテクチャの転換です:推論と行動が分離されなくなりました。ニューラルネットワークにコップを認識する方法を教えることで、同時にコップを掴む方法も教えたのです。この結合こそが、VLAに汎化を可能にし、その前身たちにはできなかったことです。
五:双脳戦略、LLMとVLAの協働方法
マーケティングではめったに明確に説明されない細部があります。現在、最もパフォーマンスの高いヒューマノイドロボットは、単一のVLAシステムを実行するのではなく、異なる速度で動作する2つのモデルを実行し、それらが互いに通信しています。これは、ダニエル・カーネマンの心理学的フレームワークに由来し、人間は迅速な直感的な脳と遅い熟考的な思考脳を持つという考えに基づき、しばしば二重システムまたはシステム1/システム2アーキテクチャと呼ばれます。
Figure AIのHelixがこの設計をクラシックにし、現在、その(およびそのバリエーション)は至る所で模倣されています。特に重要的是、NVIDIAのGR00T N1.7がこの設計を採用しており、ほとんどの中国製人型ロボットもこの設計を採用しています。その構造は以下の通りです:
- システム2(S2):遅い思考の脳。70億パラメータを持つ視覚-言語モデルで、約7–9Hz(毎秒7~9回)の頻度で動作します。このモデルの役割は、シーンを観察し、指示を解析し、多段階の推論(例:「ボウルはシリアルの箱の後ろにある;まず箱を動かす必要がある」)を行い、高レベルの意図(通常は文字ではなく、一連のコンパクトな内部ベクトル)を発信することです。
- システム1(S1):高速反応型脳。約8,000万パラメータの非常に小さな視覚運動戦略モデルで、200 Hzの頻度で動作します。S2からの意図ベクトルと最新のセンサーデータを受け取り、連続的な関節指令を出力します。実質的に「思考」は一切行わず、単に反応するだけです。
最近、Figure社のHelix-02にシステム0(System 0)が追加されました。これは二重脳システムの下層に位置し、第三認知層ではなく反射層です。このネットワークは1000万のパラメータを持ち、1 kHzで動作し、基本的なバランスと全身の調整を処理し、10万行以上の手書きの運動制御C++コードを神経コントローラーで置き換えます。S0は後天的に獲得された脊髄のように考えることができます。これは推論や計画を行わず、身体の立位と調整を維持するのみで、思考はその上位の二重脳システムが担当します。

現代のヒューマノイドロボットの二重脳アーキテクチャ:システム2はゆっくりと考え、システム1は素早く反応——その下には、バランス、触覚接触、全身の調整を維持するためのシステム0の反射層がある
この分割は物理学的な制約によるものです。200ミリ秒ごとに運動指令を発信するだけでは(これは大規模VLAの動作速度です)、ロボットの動作は水中で動くように遅くなります。制御される関節の自然振動よりも速く運動指令を更新する必要があり、これは毎秒数百〜数千回の更新を意味します。70億パラメータのTransformerモデルは、バッテリー駆動のロボット上でこれほど高速に動作することはできません。
したがって、認知タスクは分割される:巨大で遅いモデルが思考を担当し、小巧で速いモデルが行動を担当する。それらは英語で通信するのではなく、学習された潜在ベクトルを通じて通信する:遅いモデルは抽象的な目標を発信し、速いモデルはそれを解釈する方法を知っている。
六:クラウド、エッジコンピューティング、および「脳」の配置問題
これらの計算はすべてどこで行われているのですか?
現在、ロボットチーム間には、セキュリティに関わるコア制御ループはローカルで実行されるべきだという、ほぼイデオロギー的な合意が形成されています。その理由は二つあります:
遅延。WiFiまたはセルラー通信の往復伝送時間は、楽観的に見ても30-80ミリ秒です。一方、アクションコマンドは1-5ミリ秒ごとに更新が必要です。このようなネットワークループでは正常に動作しません。
信頼性。ロボットは工場、倉庫、厨房、病院などの場所で動作します。ネットワークはいつでも切断される可能性があります。Wi-Fiが切断された瞬間にロボットが停止すれば、それは安全上のリスクとなります。
したがって、現代の区分はおおむね以下の通りです:
ボード上(ローカル)、NVIDIA Jetson Thor または AGX Thor モジュール(約 2,000 TFLOPS、128 GB メモリ、40–130 W 消費電力)のようなデバイス上で実行:
- S0/S1のすべての機能:バランス、運動、微細動作制御。
- VLA自体(システム2)は、ハードウェアの制約に対応するため、ますますFP8またはFP4フォーマットに量子化されています。今日では、20億から70億パラメータのモデルをデバイス上で実行できます。
- 感知、センサーフュージョン、および他のすべての操作をカバーするセキュリティ監視プログラム。
クラウドまたはリモートサーバー(存在する場合):
- 対話型インターフェース(「ねえ、ロボット、夕食に何を作ろう?」):これらのインターフェースは遅延を許容できます。
- クラスタ学習:数千台のロボットがリモート操作データをサーバーに送信し、次バージョンのモデルに統合されます。
- 大規模な長期計画を立てる必要があり、最先端のスケールモデルを採用する可能性があります。
- オペレーターダッシュボードとモニタリング。
また、工場や倉庫内に設置されたローカルエッジサーバーという、着実に拡大している中間層があります。これらのサーバーはローカルネットワークを通じてロボットクラスターと通信し、遅延は数ミリ秒レベルです。より大規模なLLMはこの層にデプロイされ、個々のロボットが自ら管理する必要のない高度なスケジューリングタスクを実行します。
中国の人型ロボットの波は、宇樹(Unitree)、智元(AgiBot)、小鵬IRON、傅利葉(Fourier)、逐際動力(EngineAI)といった企業が、搭載型コンピューティング能力(通常はJetson、場合によっては華為Ascendなどの国産チップ)を備えたロボットを構築し、クラウドは制御ループではなくクラスターラーニングおよび対話インターフェースに使用するという仮定に基づいて構築されている。

ロボットの脳が実際に動作する場所:セキュリティ上重要なループはローカルで動作し、クラウドは待機可能な処理を担当します。
七:なぜオープンソースモデルが静かに注目を集めているのか
デモだけを見ると、この分野は資金が豊富な少数の米国企業が支配しているように思えるかもしれません。しかし実際ははるかに複雑です。物理AIの発展速度は、誰でもダウンロードして微調整できるオープンソースの重みモデルによって大きく左右されています。
以下に挙げるモデルは多くないが、意義が大きい:
- OpenVLA(スタンフォード大学):最初のオープンソース7B汎用ロボットモデル。
- NVIDIA Isaac GR00T(N1、N1.5、N1.7):オープンソースの重みが間もなくリリースされ、商業ライセンスも間もなく提供されます。このモデルは数万時間に及ぶ人間の第一人称視点の動画でトレーニングされています。GR00T N1.7は2026年3月にリリースされ、そのデュアルシステムアーキテクチャは、その時点で人型ロボットを所有するすべてのユーザーに無料で提供されます。
- Physical Intelligence の π0:研究用の重みをリリース。
- NVIDIA Cosmos:オープンワールド基礎モデル。
- AgiBot World:上海のスタートアップ企業が提供する、リモート操作型ヒューマノイドロボットのデモを含む大規模なオープンデータセット。
- Hugging Face の LeRobot:オープンなライブラリで、上記のすべてのプラットフォームの集約地となっています。
- Mimic robotics の mimic-video:従来のVLAよりもサンプル効率が10倍高いオープンソースの動画-アクションモデル。
その重要性には二つの理由があります。まず、ロボットスタートアップは、基礎モデルを事前学習するために数千万ドルを費やす必要がなくなりました。彼らはGR00Tやπ0を取得し、自社ロボットのデータで後学習できます。宇树、逐際動カ、Booster、Galbot、そして数十社の規模の小さな中国企業がまさにこの方法を採用しています。これが、わずか数百人の従業員しかいない企業が、歩行でき、話せ、服をたためる人型ロボットを生み出せる理由です。彼らはオープンソースの技術スタックの上に立っているからです。
また、オープンソースモデルはセキュリティの問題を解決するための唯一の現実的な手段である。完全にクローズドなモデルが工場のロボットに搭載され、外部からその推論ロジックを一切洞察できない場合、これは規制当局にとってまさに悪夢である。オープンモデルにより、監査人、研究者、オペレーターがロボットが実際にどのような内容で訓練されたかを真正に確認できるようになる。
8:まだ解決されていない問題は他にありますか
十分多くのロボットデモ動画を見たことがあるなら、きっと多くのロボットの故障動画も見てきたことでしょう。現在の世代のLLM+VLAロボットは確かに印象的ですが、明確な限界も存在します。以下にその問題点を挙げます:
- タスクの途中から再開。VLAは、以前のどの技術よりも予期しない変化に対応する能力が高い。しかし、実際に問題が発生した場合(たとえば、グリッピングミス、物体の転がり、作業エリアへの侵入など)、元の状態に戻る能力は依然として弱い。ロボットは失敗した動作を盲目的に繰り返す。
- サンプル効率。ゼロからVLAを訓練するには数万時間のリモート操作データが必要だが、人間は数分で新しいツールの操作を習得できる。この効率の差は大きい。
- 跨実体汎化。スタンフォードの実験室でFrankaロボットアームを用いて訓練されたモデルは、深圳の倉庫にあるUnitreeヒューマノイドロボットに完璧に移行できない。両者の物理的形状が異なるため。
- 長期タスク。30〜60秒以上継続する必要があり、複数のサブゴールを含むタスクは、目標から逸れやすい。「朝食を作って」这样的タスクは常に実現不可能である。
- 物理的な常識。VLAは理解の訓練ではなく、模倣の訓練を受けている。つまり、「コップの水を倒す」とき水がこぼれるという原理を真正に理解しているわけではない。単にいくつかの例を観察し、パターンマッチングによって次に何が起こるかを予測しているだけである。
- 空間推論能力。それらはマルチモーダルであるが、「障害物を通り抜けるのではなく避けられる」や「これらの物を積み上げて倒れないようにする」などのタスクでは驚くほど弱い。
この一連の弱点が、この分野にまったく異なるモデルへの注目を促しました。
九:ワールドモデル
ロボットに行動を予測するのではなく、行動の結果を予測するように訓練した場合、どのような結果になるでしょうか?
ワールドモデルは、現在の世界の状態(通常は動画や一連のフレーム画像)と事前に設定されたアクションに基づいて、次に世界がどのように変化するかを予測するニューラルネットワークです。簡単に言えば、ステアリングホイール付きの学習型動画予測器と考えられます。最後の1秒のカメラ映像を見せ、ロボットが腕を10センチ前方に動かすと指示すれば、次の1秒のリアルな映像を生成します。
なぜこれが重要ですか?
世界モデルが得られれば、ロボットは行動前に思考できるようになります。3〜4種類の異なる行動候補を事前に構想し、各行動の結果を予測して評価し、最適な方案を選択できます。すべてのプロセスはモーターの動作前に完了します。これはチェスエンジンの動作方式とまったく同じです:手順を記憶するのではなく、未来をシミュレーションします。これまで物理ロボット分野では、複雑な現実世界をシミュレーションするのに十分な精度のモデルが存在しなかったため、このような能力は持ち合わせていませんでした。

世界モデルにより、ロボットは複数の可能性のある将来のシナリオをシミュレーションし、評価して、モーターを起動する前に最適な方案を選択できます。
2026年の世界モデルはどのような姿をしているのでしょうか?
現在最も先進的な世界モデルは多様であり、急速に発展しています。以下にいくつかのモデルを示します:
- NVIDIA Cosmos:オープンワールド基礎モデルのシリーズで、Cosmos Predict 2.5(生成モデル)、Cosmos Transfer 2.5(制御可能なシミュレーションモデル)、Cosmos Reason 2(ロボット用の視覚言語推論器)、および最新のCosmos Policyを含みます。Cosmos Policyは、世界モデルを後学習することで、直接アクションを出力して制御します。Cosmosは数万GPU時間の動画データで学習されています(Cosmos Predict 2.5はこのシリーズにおける世界モデルです)。
- DeepMind Genie 3:テキストプロンプトに基づいて完全にナビゲート可能な環境を生成し、毎秒24フレームで安定して数分間動作するインタラクティブなワールドモデル。当初はゲーム環境向けに設計されました。
- Meta V-JEPA 2:100万時間以上のオンライン動画を用いて事前学習し、その後、ロボット動画62時間のみでアクション条件付き学習を行いました。異なる実験室の実際のロボットアームで、特定のタスクの学習なしに、ゼロショットピックアンドプレイスの成功率が80%を達成しました。「JEPA」手法はアーキテクチャ上で他の手法とは大きく異なります。
- DeepMind Dreamer 4:環境との任何のインタラクションなしに、オフラインデータのみを使用して、Minecraftでダイヤモンドを収集する(2万ステップのタスク)ことを習得しました。これは、バーチャルワールドでの本格的な強化学習が可能であることを証明しています。
- AgiBotのGenie Envisioner:中国製の統一世界モデルプラットフォームで、3000時間以上の現実世界のヒューマノイドロボット操作動画で学習されています。予測された展開軌道と実行可能な動作軌道の両方を生成できます。AgiBotはNVIDIA Cosmos Predict 2をバックボーンネットワークとして使用し、独自データで後学習を行っています。これは以前説明した「オープンソース技術スタック+独自データ」のモデルです。
- トヨタ研究所がCosmosに基づくワールドモデル:リモート操作用のデータ拡張とナビゲーション。

2025年から2026年にかけて最も重要な6つの世界モデルは、それぞれ機械が物理学を学ぶべき方法について異なる仮説を提示している。
十:分野が未定であるための代替アーキテクチャ
世界モデルの構築には統一された基準がない。アーキテクチャを巡る議論は、現在のAI分野で最も興味深い議論の一つであり、ロボットが今後何を実現できるかに直接影響を与える。以下の3つの陣営に注目すべきだ:
ピクセルレベルのビデオ拡散(Cosmos/Sora 学派):拡散モデルを使用して将来のフレームの実際のピクセルを予測する。利点は、合成データ生成ツールとして、これまで起こったことのない新たなロボットデモをレンダリングできることである。欠点はコストが高く、時として物理法則に反し、見たことのないピクセルを予測することは無駄であるということである。
联合嵌入预测架构(JEPA、LeCun学派):不预测像素,而是预测下一帧的抽象表征。抛弃纹理细节,仅保留场景中事物的语义本质。优点是高效,专注于对行动至关重要的因素;缺点是使用较为困难。V-JEPA、V-JEPA 2 以及新型 JEPA-VLA 混合模型正在探索这一领域。
潜在動作世界モデル(Genie/Dreamer パラダイム):動画全体を潜在的な「動作言語」に圧縮し、その言語が行動構造を捉えるように学習し、次に潜在的な動作に基づいて次の潜在的状態を予測する世界モデルを訓練する。利点は、動作のないネット動画を使用して訓練でき、その後少量の実際のロボットデータを追加できることである。欠点は、潜在的な動作が人間には理解できず、セキュリティ分析が複雑になることである。

ピクセル拡散、JEPA、潜在アクション:目標は同じだが、世界モデルを構築する方法は大きく異なる
11:世界モデルに基づくロボットの実際の応用
数年先に進んだ場合、最先端のヒューマノイドロボットのアーキテクチャはこのような形をしているかもしれません:
VLAには世界モデルが搭載されています。ロボットが新しい状況に遭遇したとき、以下のような操作を実行します:
- VLAはいくつかのフォローアップアクションの候補を提案しました(これは依然として戦略です)。
- 世界モデルは各候補アクションを取得し、1〜3秒の仮想動画をシミュレートします。
- 価値判断者は、想定された結果に基づいてスコアを付けます:コップは持ち上げられましたか?何か落ちましたか?人が衝突しましたか?
- ロボットは得点が最も高い行動を選択し、その最初の部分のみを実行します。
- リアルなセンサーデータのフィードバック;繰り返しループ。
これがモデル予測制御であり、この技術は長年にわたりロケットやクアッドコプターの安定化に使用されてきましたが、ここでは人為的に導出された物理方程式の代わりに学習された世界モデルを使用しています。その拡張性は、ナビエ–ストークス方程式を台所環境のために人為的に記述したからではなく、数百万時間に及ぶ動画に基づいて事前学習された世界モデルによるものです。
その利点は段階的に広がります:
- 回復状況が改善されています。抓取動作に誤りが発生した場合、世界モデルは複数の修正パスを想定し、最も有望なパスを選択できます。
- 汎用性が向上しました。ネット動画に基づいて訓練された世界モデルは、あらゆるロボット遠隔操作データセットよりもはるかに多くの物理現象を経験しています。
- 長期的な計画をコントロール可能にする。現実で計画するのではなく、想像の中で計画する。
- シミュレーションと現実の差が縮小しています。以前は、自前で構築したシミュレーター(例:Isaac Sim、Newton 物理エンジン)を使用して訓練し、その結果が実際のアプリケーションに移行することを期待していましたが、現在では、実際のビデオと一致するように訓練されたシミュレーターを使用して訓練できます。そのため、差がより小さくなっています。
- 合成データが爆発的に増加しています。1つの世界モデルは、異なる照明、素材、物体配置をカバーする数百万の異なるロボット軌跡をほぼ無料で生成できます。これは、この分野における最大のボトルネックの1つを解決します。
また、これは重要なセキュリティ上の利点も備えています。行動の結果をシミュレートできるロボットは、事前に設定されたルールによる制限ではなく、将来誰かが怪我をする可能性を予測して、危険な操作を実行しないことができます。

二つの移動方法:VLAは見えたものをもとに反応する;世界モデルロボットは移動前に考える
12:さらに知っておくべきこと
真の核心問題はデータの問題である:モデルにデータを提供できない限り、世界中のアーキテクチャの革新も無意味である。現在、リモート操作(人がVRデバイスを装着してロボットを遠隔操作する)が主要な技術的ボトルネックである。ロボット企業の競争優位は、モデルそのものではなく、データ収集パイプラインにますます依存している。智元ロボティクスは、オペレーターで満たされた倉庫を構築している。NVIDIA GR00T N1.7の機敏性拡張法則によれば、より多くのヒューマンファーストパーソンビデオは、ロボットの機敏性を直接的かつ予測可能に向上させる。これは中国が構造的優位を有する理由の一つでもある:より低いデータ収集労働コスト、より寛容な導入環境、そして国家によるサプライチェーンの積極的な調整。
シミュレーションは並行宇宙である。NVIDIAのIsaac Sim、新たにオープンソースとなったNewton物理エンジン(バージョン1.0は2026年4月に正式リリース予定)、およびOmniverseプラットフォームにより、企業はロボットを現実世界にデプロイすることなく、数百万の並列シミュレーション環境で訓練できる。多くの「ロボットの知能」と思われる機能は、実際にはシミュレーション環境で育成され、その後ハードウェアに移植される。
経済的効果が現れ始めている。Unitreeは2025年に約5,500台のヒューマノイドロボットを納品し、2026年には1万~2万台を達成する計画である。平均価格は2年間で8万5,000ドルから2万5,000ドルに低下した。UnitreeのR1は5,900ドルで販売されている。Noetix Bumiの上市価格は1,400ドルである。ヒューマノイドロボットのハードウェア価格は消費電子製品の水準に近づきつつあるが、その内部のAI技術はデモ製品に比べて依然として遅れている。この差はいずれ縮小し、そのとき、市場規模の拡大は業界全体に顕著な影響を及ぼすだろう。
故障モードは奇妙に見える。LLMベースのロボットが故障するとき、その故障の仕方は従来のロボットではあり得ない。たとえば、自信を持って間違った行動をとる、特定の機能を「幻覚的に」認識する、自身のプランナーとの対話ループに陥るなどである。従来のロボット界では、こうした現象に対して相当な疑念が抱かれており、その疑念は妥当である。学習システムは安全に監視され、行動が制約されるべきだという考えが根強い。現在、最も信頼性の高いデプロイ済みロボットはハイブリッド型であり、VLAブレインが手作業で設計された安全なカゴ内に配置されている。
「ChatGPTの瞬間」という物語は有用だが誤解を招く比喩である:黄仁勲は、ロボットのChatGPTの瞬間が到来したと常に人々に伝えている。彼がそう言うのは、NVIDIAがシャベルと鉄橇を売っているからである。より正直なバージョンは、現在の段階は物理的AIのGPT-2時代にほぼ該当するということだ。それは強力で、あなたを驚かせるほどだが、まだ監視なしでの展開には十分ではない。急速に進化しているが、ウイルス的な普及の爆発点には至っておらず、ゆっくりと確実な上昇軌道を描いている。
まとめ

宇樹四足ロボットの進化の歴史(右から左へ)
宇樹のオフィスで見られたデモでは、5台のG1ヒューマノイドロボットが、丁寧に編成された動作を実行し、搭載型VLA方式のコントローラーが微調整を行い、リモートオペレーターが全体の進行をサポートしていた。本質的には、これは完全自律ではない。しかし、感知・計画・運動制御という一連のプロセスは、すべてニューラルネットワークによって置き換えられている。2年後、同じロボットは編成なしで同じ動作を実行できるようになり、その動作全体を事前に構想し、最適なバージョンを選択できるようになった。
本文で説明されている全体的な発展の過程:手作業で作成されたコントローラーから、機械学習による感知へ、次にLLMプランナーへ、さらにVLAへ、双システムアーキテクチャへと進み、最終的に世界モデルへ至るまで、これはロボット知能の位置が徐々に移動してきたことを示している。これはエンジニアの頭の中から始まり、手作業で書かれたコードへと進化し、次に感知層、プランナー層、戦略層へと移っていった。そして今、それはようやく世界そのもののモデルを学習する方向へと向かっている。
すべての転換が、ロボットをより汎用的で、より適応性が高く、より有用にします。世界モデルの転換が成功すれば、ロボットに強力な能力が与えられ、問題は「ロボットは何ができるか?」ではなく、「私たちはそれらに何をさせるべきか?」となるでしょう。
関連記事:30社以上のヒューマノイドロボット企業を徹底解説!2026年に勝つのは誰?
