本文は、エMBODIED INTELLIGENCE分野におけるワールドモデルの発展パスについて論じている。現在、二つの路線が存在する：シリコンバレーの「代替派」はWAMを用いてVLAを完全に置き換えることを目指しており、国内の主流である「融合派」はワールドモデルをVLAの能力補完として位置づけている。本文は、ワールドモデルが三つのバブルに直面していると指摘する——定義の汎化、計算リソースの高门槛、実用化の難しさ。真のワールドモデルは、リアルなビジネスサイクルに組み込まれ、機械が物理世界で行動するのを支援すべきであり、単に画像のリアリズムを追求するべきではないと主張している。

文章執筆者、出典：先験ラボ

VLAからWAMへ、過大評価された革命と過小評価された進化。

過去半年、エムボディード・インテリジェンス分野で最も話題を呼んだ二つの舆论のブームがあった。一つはスクリーンに関するもので、Soraからさまざまな動画生成モデルが次々とその能力を披露し、水をこぼした際の広がりの細部や、連続空間における人物の動きが、「AIによる現実の再構築」というナラティブを頂点に押し上げ、「ワールドモデルの到来」への叫びが絶えなかった。もう一つは墓碑に関するもので、NVIDIAのチーフリサーチサイエンティストであるJim Fanが、WAM（ワールド・アクション・モデル）がVLA（ビジュアル・ランゲージ・アクション・モデル）の墓碑の前に立つというmeme画像を用いて「VLAは死に、ワールドモデル万歳」と宣言し、路線論争を一気に表舞台に引き出した。（本稿ではエムボディード・インテリジェンスにおけるワールドモデルのみを議論する）

2つの狂欢は同じ核心語：世界モデルを共有しています。

しかし不思議なことに、具身知能の分野で議論が広まるほど、その定義は曖昧になっていく。誰かはリアルな動画生成を「ワールドモデル」と呼び、誰かはロボットの動作予測を「ワールドモデル」と呼び、また誰かは自動運転のシミュレーション環境を「ワールドモデル」と呼んでいる。同じ概念の下に、まったく異なる技術的目標と商業的ニーズが詰め込まれている。

現在、世界モデルの最大の危険は、「定義が曖昧」であることではなく、すべての人がその最も視覚的に魅力的で、拡散しやすい側面だけをもって、その価値全体を定義していることである。「世界を構築する」という技術の見せ方が、「世界を使う」という本質を上回っている今、世界モデルは、最も物語が上手な人々によって、本来向かうべき場所——Physical AIの現実の物理的シナリオ——から離れつつある。

世界モデルには当然、「世界を構築」する能力が必要である。那些驚異的な生成デモがなければ、それはこれほど急速に一般大衆や資本の注目を浴びることはなかっただろう。しかし、Physical AI産業にとって、世界を生成することは、問題の始まりにすぎない。世界は最終的に制御され、検証され、修正され、機械の行動前のシミュレーション空間、意思決定の根拠となるべきである。ビデオ生成は世界モデルの扉を開くことができるが、その先の現実の物理世界への道のりをすべて歩くことはできない。

新しい概念や新しいナラティブは常に存在しており、エムボディード・インテリジェンスは必ず独自の汎用的な道を歩み出すだろう。そのとき、その道をVLAと呼ぶか、WAMと呼ぶか、あるいは他の名前で呼ぶかは、もはや重要ではなくなるだろう。

毕竟，它已经融入了我们的生活。

世界モデルは「画面の生成」と完全には等しくない

Soraを覚えていますか？

当時、OpenAIはSoraをリリースし、報告書のタイトルを「Video generation models as world simulators」とした。この発表により、ビデオ生成モデルは「物理世界の汎用シミュレーター」への実現可能な道筋になると示された。Soraが当時提示した長尺動画では、カメラの動き、局所的な3D一貫性、オブジェクトの状態維持能力が見られ、一般大衆は初めて直感的に「AIが実際に『世界を構築』している」ように感じ取った。テキストや画像と比べて、動画は人間が「世界」を直感的に認識する方法に自然に適合している——時間、空間、運動、連続的な変化を含んでおり、モデルが物理法則をすでに習得したという錯覚を生み出しやすい。

このような能力は発表会でのデモに天然に適しており、資本やメディアの注目を最も引きやすい。その結果、次第に「動画生成＝世界モデル」が多くの人の默认の認知入口となった。

これはもちろん間違いではありません。デジタルネイティブなシナリオでは、ビデオ生成のアプローチはもともと効率的な解決策であり、すでに多くのユニコーン企業が登場しています。これらの製品はゲーム業界でリアルタイムに動的シーンを生成し、アートコストを削減しながらプレイヤーの自由度を高めます。また、試行錯誤のコストが高い航空宇宙や高度製造などの分野では、テストの境界を拡張し、シミュレーションシーンを豊かにすることで明確なビジネス価値を生み出します。このように生成される「世界」は観客向けの映像ではなく、インタラクティブで試行錯誤可能なシミュレーション環境です。

真の誤解は、異分野の境界で生じる。世界モデルが具現化された知能と出会ったとき、多くの人が、モデルが連続的でリアルなデジタル世界を生成できるということは、物理世界の理解・予測・行動能力を獲得したと勝手に思い込んでいる。

北京智源人工智能研究院院長の王仲遠は、これについて的確に指摘した：現在、世界モデルの代表と広く見なされている動画生成技術は、本質的にピクセルレベルの世界シミュレーションにすぎない。「動画生成モデルは、訓練データに多くのSF映画が含まれているため、空で豚が飛行機と一緒に飛ぶような映像を生成できるが、その目的は現実の物理法則を再現することではない。」

この差を示すための古典的な具象的なシナリオとして、コップを掴むことを挙げることができる。モデルは異なる視点から一貫した外観のコップを生成できる——これは視覚的一貫性であり、動画データから学習した結果である。しかし、手を伸ばして触れると、摩擦力はどれほどか？材質はその握力に耐えられるか？コップがテーブルの上に落ちるのは、モデルが「コップは通常テーブルの上にある」と記憶しているからか、それとも重力、支持力、接触制約を真正に理解しているからか？複雑な力学的応答、接触後の状態変化、現実の物理法則による因果的制約——これらは生成された動画1本ではカバーできない。横方向に移動する自動車が生成され、検証されずに自動運転の学習パイプラインに組み込まれた場合、現実の物理世界は必ずや痛烈な報復をもたらすだろう。

言い換えれば、動画生成は世界モデルの一種の表現形式であり、多くのシナリオで実装されているが、エムボディード・インテリジェンスが目指す世界モデルではなく、Physical AIの文脈における核心的な形態でもない。「世界を構築する」という視覚的効果でエムボディード・インテリジェンスの世界モデルを定義することは、デジタル世界の基準を物理世界の問題に適用することに他ならない。

VLAは死んだ？世界モデルは革命ではなく、補完である

「VLAは死に、WAMが後継者となった」は業界内で最も広く流されているナラティブである。

過去2年間、VLAは具現化された知能の主流アプローチであった。それは大規模言語モデルの事前学習の考え方を継承し、膨大なリモート操作データを通じて「感知 - 指令 - 動作」のマッピングを構築し、ロボットが機械的な繰り返し動作から自然言語の理解と複雑なタスクの分解へと移行させた。業界内のすべての主要プレイヤーが、VLAを核心技术基盤としてきた。

しかし、VLAの短所も明確です。本質的には模倣学習による記憶とマッピングに依存しており、物理法則の根本的な理解が欠けています。そのため、訓練データに含まれていない新しい状況や新しい物体に遭遇した場合、汎化能力は急速に失われます。Jim Fanが提唱するWAMアプローチは、まさにこの課題に焦点を当てています。その核心的なロジックは、「意味理解」から「物理予測」への転換です。直接行動を出力するのではなく、まず未来の世界状態を予測し、その後で行動シーケンスを逆算します。これは、ロボットが行動する前に頭の中で結果を「シミュレーション」することで、未知の状況への適応能力を高めることを意味します。

そこで「颠覆論」は急速に広まり、VLAは時代遅れの旧パラダイムであり、世界モデルがエムボディード・インテリジェンスの次世代の答えであるとされた。しかし、実際の産業実践では、状況は「生か死か」那么简单ではない。

業界は、異なる技術哲学と商業的要請を背景に、明確な2つの路線に分かれています：

一つはシリコンバレーが主導する「代替派」である。NVIDIA、Google DeepMindなどが代表で、十分な計算力とデータ蓄積を背景に、徹底的なパラダイムの再構築を追求する。NVIDIAはCosmos 3において、言語、画像、動画、動作シーケンスを同一のPhysical AI世界モデルフレームワークに統合し、生成、シミュレーション、動作予測を分離されたモジュールではなく一体化しようとしている。WaymoとGoogle DeepMindが共同で開発したWaymo World Modelは、Genie 3モデルの機能を活用し、稀な天候や動物の侵入などのロングテールシナリオを生成するだけでなく、これらのシナリオを運転行動、道路レイアウト、言語条件によって制御することを目的としており、対事実的情況下での自動運転システムの反応をテストするために使用される。

これは最も野心的で、「革命的な物語」に最も合致する道だが、障壁が非常に高く、トップ企業だけのゲームである。

もう一つは国内でより一般的な「融合派」である。ほとんどのプレイヤーは一からやり直すのではなく、世界モデルをVLAの能力補完として既存のアーキテクチャに組み込んでいる。智平方は2026年5月に、VLAエムボディーディープラーニングモデル「AlphaBrain」をリリースした。これは人間の脳の「大脳・小脳・体幹」の役割分担メカニズムを参考に、「速いシステム」と「遅いシステム」を連携させ、世界モデルの「シミュレーション」機能をVLAアーキテクチャ内部に内蔵している。遅いシステムは環境状況の認識と高次行動計画を担当し、速いシステムは微細なセンシングと迅速なフィードバックを担当する。智平方の創設者である郭彦東の判断は明確だ。「世界モデルとVLAはまったく対立しない。もともと一つの技術路線の枝分かれにすぎない。より長期的な推論タスクを実現したいなら、世界モデル＋VLA、あるいは世界モデルとVLAを統合する必要がある。」

銀河総合は非常に進んでおり、今年4月にリリースしたLDA-1Bモデルは、統一されたフレームワーク内で戦略学習、物理予測、視覚認識を同時に実行し、産業級10億パラメータ規模で初めて世界モデルとアクションモデルを統合した。関連成果はロボティクスのトップ会議RSSに採択され、モデルの重みとトレーニングコードはオープンソース化されている。彼らは「VLAを選ぶか、世界モデルを選ぶか」といった議論にとらわれず、より現実的に予測と実行を同じモデルで共有し、それぞれの長所を活かし、短所を補い合っている。

私たちの見解では、「代替」と「融合」には絶対的な正誤はなく、単に異なる段階における異なる選択にすぎません。VLAは実際に「死ぬ」ことはなく、世界モデルもすべてを覆す革命でもありません。それは、VLAが最も欠けていた物理的予測能力を補完するものです。両者の最終的な関係は、生死を争うものではなく、階層的に協力し合う可能性が高いです。真に道筋の勝敗を決めるのは、概念がどれほど新しく見えるかではなく、誰がデータ、シミュレーション、実機デプロイの連鎖を最初に実現し、ロボットを現実のシナリオに本格的に導入できるかです。

世界モデルはまだ実装されていないのに、すでに概念の虚火が盛り上がっている

この概念の注目度が技術の実装を上回っているため、バブルはほぼ必然的な産物である。現在のワールドモデル分野では、少なくとも3つの注意すべきバブルが浮上している。

第一の課題はバブルを定義することである。今日の「ワールドモデル」という概念は、何でも詰め込める籠になってしまった。ヤン・ルカンはそれを抽象層による世界状態の予測と定義し、李飛飛はインタラクティブな3D空間の表現と定義し、NVIDIAは物理AIを用いた生成的シミュレーターと位置づけている。スタートアップの中には、動画生成をもってこれに充てる者もいれば、従来のシミュレーションエンジンに名前を変えて「ワールドモデル」と呼ぶ者もいる。中国ではすでに数十社がワールドモデルの展開を宣言しているが、それらが指すものが実は全く異なるものである可能性が高い。技術概念が無限に解釈可能になると、それは技術的な基準としての意味を失うことが多い。定義の曖昧さの背後には、資金調達の必要性とマーケティングの物語が共に作用している。結局のところ、「ワールドモデル」と呼ぶのは、「動画生成ツール」や「シミュレーション最適化ソリューション」と呼ぶよりもはるかに価値があるからである。

第二のバブルは計算能力のバブルである。世界モデルの主流なトレーニング路線は、膨大な動画データと超大規模な計算能力を基盤としているが、これはまさにNVIDIAの得意分野である。ジェンセン・ホアンはGTCカンファレンスで、2027年までにBlackwellおよびRubinチップ、ならびにエージェント型AIモデル向けに設計された関連システムが、NVIDIAに少なくとも1兆ドルの収益をもたらすと明言した。ある意味で、シリコンバレーのトッププレイヤーが「マルチモーダル汎用世界モデル」路線を推進していることは、NVIDIAの「計算インフラ販売」というビジネスロジックと非常に一致している。しかし、この路線への投資门槛は、ほとんどの企業にとって底なしの穴である。過去にVLAに投資した中小チームですら、このような規模の埋没コストを負担するのは困難であり、世界モデル分野にゼロから参入することはさらに不可能だ。すべての人が同じ高計算能力路線について語っている一方で、投入対効果を正確に計算できる人はほとんどいない。これはまさにバブルの兆候である。

第三で最も致命的なのは、現実への泡沫の崩壊である。すべてのコンセプトナラティブは、最終的に同じ問いに答える必要がある：それは本当に機械の性能を向上させられるのか？しかし現実は、モデルの名前がVLAからWAMに変わったからといって、シミュレーションから現実への移行のギャップが自動的に解消されるわけではない。動画内でわずかな穿模、反重力、境界の曖昧さが、ロボットの訓練においては誤った物理的認識として固定化される。物理法則に反するが、一見合理的に見える予測は、モデルを使わずに訓練するよりも、実機に対する誤導をさらに深刻にする。

蚂蚁灵波のチーフサイエンティスト、沈宇軍は、核心的な差異を指摘した：デジタル世界の生成モデルでは、高精細でリアルな表現を追求しても、少し遅れても問題ないが、物理世界のモデルでは、まず速さ、安定性、正確さが求められ、リアルタイムでフィードバックを出力し、行動を支える必要がある。多くのチームがデジタル世界でシナリオをますますリアルにレンダリングすることにこだわっているが、実際の物理的相互作用のデータこそが最も希少なリソースであることを見落としている。世界モデルはシミュレーション内で美しい指標を出すことができるが、工場の生産ラインや物流倉庫、オープンな道路で実際の価値を検証するまで、それはあくまでラボでの技術探求にとどまり、産業レベルのインフラとは言えない。

では、Physical AIまたは具身知能のための世界モデルは、どのようなものであるべきでしょうか？その答えは、発表会のデモ動画にはなく、実際のシナリオにおける要件の中にあります。その核心的な評価基準は、「生成された世界がどれほどリアルか」ではなく、「機械が物理世界でより良く行動できるかどうか」、試行錯誤のコストを削減できるか、汎化能力を向上させられるか、実際のビジネスサイクルに組み込めるかです。

現在の産業における実践から見ると、正しい方向に進んでいるプレイヤーはすべて同じことをしている。つまり、世界モデルを「表示指向」から「タスク指向」へと転換しているということだ。言い換えれば、世界モデルの最終形態は、独立した「製品」ではなく、さまざまな物理システムに組み込まれた基礎的な能力である。それは自動運転のシミュレーションバックエンドに、ロボットの動作計画モジュールに、工場の生産ラインの予測システムに隠れ、予測・試行・修正を静かに実行している。ほとんどの場合、ユーザーはその存在に気づかない。

それが世界モデルの時代であるが、もちろん、それを世界モデルと呼ぶ必要もない。

具現化された知性におけるワールドモデル：視覚生成を超えるための道筋

世界モデルは「画面の生成」と完全には等しくない

VLAは死んだ？世界モデルは革命ではなく、補完である

世界モデルはまだ実装されていないのに、すでに概念の虚火が盛り上がっている