李飛飛チームが「ワールドモデル」の概念を明確にし、Soraはレンダラーと分類

2026年6月3日、World Labsチームとスタンフォード大学の李飛飛教授が共同で、直截的なタイトル《世界モデルの機能分類法》という概念分析記事を発表した。記事の冒頭で、業界の暗黙の了解を突き破る一文が続く。「世界モデルは、現在の人工知能分野で最も重要であり、同時に最も濫用されている用語の一つである。」

この文の背景は、AI業界に注目したことがある人なら誰でもよく知っている。

2024年2月、OpenAIは動画生成モデルSoraをリリースし、技術レポートのタイトルには明確に「動画生成モデルとしての世界シミュレーター」と記されていた。当時、NVIDIAのロボティクス担当ディレクターであるJim FanはLinkedInに「Soraは本質的に、行動を一切許さない唯一のアクションを持つ世界モデルである」というコメントを残し、後に繰り返し引用された。一方、公開情報によると、テスラのAIチームは公の場で、完全自動運転システムの予測コンポーネントを繰り返し「世界モデル」または「世界シミュレーター」と呼んでいる。ゲームエンジン、3D生成ツール、エムボディードインテリジェンスモデルなど、さまざまな製品や技術が同じ箱に詰められ、同じラベルが貼られている。

一つの動画生成器、一つの自動運転予測ネットワーク、一つのロボット制御モデル、一つの物理エンジン。これらに共通点はほとんどない。しかし、すべて「ワールドモデル」と呼ばれている。

長年にわたって続いてきたこの概念の混乱に対して、ようやく誰かが体系的に整理しようとしている。李飛飛チームは今回、新しいモデルを発表せず、新しいベンチマークを公表せず、製品機能をデモすることもしなかった。彼らはより基本的なことを行った：部分観測マルコフ決定過程という理論的根源に戻り、市場で「ワールドモデル」と呼ばれるすべてのシステムを、同じ認知サイクルの3つの異なる機能的投影に還元した。

三つの投影は、レンダラー、シミュレーター、プランナーです。World Labsの分類フレームワークにおいて、Soraおよびその類似の動画生成モデルはレンダラーに属します。

なぜ一つの用語がこれほど多くの矛盾する意味を含むことができるのか

この混乱の根源を理解するには、より基本的な問いを投げかける必要がある：企業が「我々は世界モデルを構築している」と言うとき、それは一体何を意味しているのか？

OpenAIにとって、Soraの目標は「物理世界を理解し、動画に表現すること」である。技術レポートによると、Soraは膨大な動画データ内の統計的規則を学習することで、視覚的な常識に合致した映像を生成できる。たとえば、コップが床に落ちると割れ、紙飛行機が手から離れるとなぜか飛ぶ、人が歩くときに足が交互に動く。これらの映像は「物理を理解している」ように見える。

テスラにとって、「ワールドモデル」は、FSDシステムにおいて、今後数秒間の道路利用者の運動軌跡を予測するニューラルネットワークである。このモデルは、経路計画モジュールが安全な運転判断を計算するために、正確な3D位置、速度、向きを出力する必要がある。このモデルはピクセルを出力する必要はなく、ベクトルと確率分布を出力する。

ロボット企業にとって、「ワールドモデル」は、機械臂が「このコップを左に5cm押したら倒れるか？」を予測するための内部シミュレーションメカニズムである。それは物体の特性、接触力学、安定性を理解し、動作の実行可能性を評価する。

三つの企業の目標はまったく異なる。ビデオ生成企業はピクセルの忠実度を重視し、自動運転企業は物理状態の予測精度を重視し、ロボット企業は行動の結果の推論可能性を重視する。これらすべてが「世界モデル」を構築しているが、実際にはまったく異なることを行っている。

World Labsは記事で、これらのシステムがすべて同じ名前で呼ばれる理由は、それらが確かに「世界を理解する」ある一面を担っているからであると指摘した。しかし、それらはそれぞれ、完全な認知サイクルの一部しか実現しておらず、マーケティング言語、メディア報道、資本の物語によって完全な世界モデルであるかのように包装されている。

概念の混乱を後押しするもう一つの要因は、用語自体に内在する張力である。「ワールドモデル」という言葉は、壮大な物語的属性を備えており、「動画生成モデル」や「動画予測モデル」よりも想像力を掻き立て、高評価や資金調達の物語を支えるのに適している。技術的な能力が公衆の期待に追いつかない場合、概念が宣伝ツールに矮小化されることは避けられない。

1960年代に、完全な「世界モデル」とはどのようなものだったのか

World Labsの分類フレームワークは、部分観測可能マルコフ決定過程という、一見古く見える理論に基づいています。

このフレームワークは、エージェントと環境との間の完全な相互作用サイクルを説明しています。エージェントは特定の環境状態にあり、アクションを実行します。そのアクションが環境状態を変化させ、エージェントはセンサーを通じて部分的な観測を得ます。この観測が内部状態の更新を引き起こし、更新された認知が次のアクションを駆動します。このサイクルは繰り返されます。

このフレームワークにおいて、「ワールドモデル」の完全な機能は、以下の3つのプロセスを含むべきである：状態から観測（人間の目やセンサーが取得するピクセル、点群など）を生成し、行動と現在の状態から次状態を推論（物理的変化を予測）し、観測と目標から行動を生成（意思決定・計画）。

言語モデルはテキスト列の統計的規則を学習し、世界モデルは空間と時間の統計的特性を学習する。異なる素材の表面での光の反射、重力による物体の運動、剛体の衝突後のエネルギーの伝達——これらが世界モデルが捉えるべき規則である。

World Labsのチームは、現在市場で「ワールドモデル」と称されているすべてのシステムは、実際には上記の完全なサイクルの一部の機能にすぎないと指摘している。あるシステムは「状態から観測へのレンダリング」のみを行い、あるシステムは「行動から次の状態への状態推論」のみを行い、あるシステムは「観測から行動への計画」のみを行っている。これらはそれぞれサイクルの一部の弧を切り取っただけであるにもかかわらず、それぞれに完全な円を表すラベルを貼っている。

この分析フレームワークの価値は、マーケティング用語を超えた比較の基準を提供する点にあります。どの企業が自社製品をどのように包装しても、それをPOMDPサイクルに戻して、何を入力し、何を出力し、どのプロセスが欠けているかを確認すれば、その能力の境界が明確に露呈します。

レンダラー、エミュレーター、プランナーの三つの投影の能力限界

World Labsの分類法において、第1類は「レンダラー」と定義されています。その核心的な目的は、人間の視覚認識向けの高忠実度のピクセル出力を生成することです。入力は、ある環境状態の表現（テキスト記述、3Dシーンパラメータ、または暗黙的エンコードなど）であり、出力はフレームごとの連続的な映像です。

レンダラーの最適化方向は物理的正確性ではなく、視覚的なリアリズムである。World Labsの記事では、レンダラーが生成する建物が「ぐらぐらしている」可能性があると明確に指摘されており、これは構造力学の方程式を真正に解いていないためである。また、生成される液体の飛び散りは現実的に見えるが、液体の体積、流速、衝撃力は実際の物理量とまったく一致しない可能性がある。したがって、このようなモデルは建築設計やロボット訓練、物理的に正確なシミュレーションを必要とするタスクには使用できない。

GoogleのGenie 3、さまざまなテキストから動画への変換モデル、およびほぼすべてのAI動画生成ツールは、このカテゴリに属します。Soraもその一つです。

第二類は「シミュレーター」である。その核心的な目的は、人間が見るための画像を生成することではなく、後続の計算に使用可能な正確な状態を生成することである。入力は現在の環境状態と外部の作用力（またはアクション）であり、出力は物理的・幾何学的に現実世界の法則に忠実な次の状態である。シミュレーターの出力状態は、応力解析、エネルギー消費計算、衝突検出に使用できるほか、レンダラーへの入力として可視化画像を生成することも可能だが、その核心的価値は状態自体の計算可能性にある。

NVIDIA Omniverseは、このようなシステムの代表的な例である。これはAIネイティブモデルではなく、従来の物理エンジンとAI加速計算を統合したデジタルツインプラットフォームである。World Labsは記事で、シミュレーターはレンダリングと計画を結びつける橋渡しであると評価しているが、高品質な3D物理アノテーションデータの不足が主要なボトルネックである。World Labsの記事によると、このようなモデルのトレーニングに使用されるデータは、インターネット上で入手可能な動画データよりも数桁少ないという。

第三類は「プランナー」である。入力は観測データ（カメラ映像、ライダーポイントクラウド、触覚センサーの読み取り値など）と目標指令であり、出力は次に実行すべき動作である。VLA（視覚-言語-行動）モデルとWorld Action Modelsはこのカテゴリに属する。

三大カテゴリ間の差異は、技術路線の微細な違いではなく、根本的な機能の分化である。レンダラーはピクセルを人間向けに出力し、シミュレーターは状態を機械向けに出力し、プランナーはアクションを実行機械向けに出力する。一つのシステムが複数の機能を同時に備えることは可能だが、多くの「ワールドモデル」と呼ばれるシステムが本質的にレンダリングのみを行っている場合、「レンダリング」を「世界の理解」と同一視することは、深刻な認知の不一致である。

2年間にわたる議論、Soraは本当に世界モデルなのか

2024年2月、OpenAIはSoraをリリースし、技術レポートのタイトルには直接「動画生成モデルを世界のシミュレーターとして」が記された。この表現は、学術界と開発者コミュニティで激しい議論を引き起こした。

支持者は、Soraが生成した動画に3D空間の一貫性、物体の持続性、そして物理的相互作用に対する某种の直感的理解が見られると考えている。かじられたハンバーガーには歯形が残り、犬が雪の上を走ると雪が跳ねるといった細部は、モデルがいくつかの物理法則を学習したことを示しているように見える。

反対者の主な主張は、強化学習分野における世界モデルの古典的定義に由来する：世界モデルは、行動に基づいて状態遷移を予測できなければならない。つまり、現在の状態と行動入力が与えられたとき、モデルはその行動後の次の状態を出力しなければならない。Soraはこれを実現できない。ユーザーはSoraに「左側からそのコップを押す」と指示しても、コップが倒れるかどうか、どの方向に倒れるか、破片がどこに飛ぶかを観測することはできない。

ジム・ファンのコメントは、この矛盾を的確に捉えている。「Soraは本質的に世界モデルだが、唯一の行動としてノーオペレーション（no-op）のみを許可している。」これは、Soraが時間とともに環境の変化を予測しているが、その変化プロセスが外部からの介入を受けず、動画データに内在する因果連鎖に沿ってのみ展開されることを意味する。Soraはインタラクティブな推論を行っているのではなく、受動的な観測シーケンスの継続を行っているだけである。

Redditのr/MachineLearning投稿では、多くの強化学習研究者がより鋭い批判を示している：行動に基づいて状態遷移を予測できないシステムは、ワールドモデルとは呼べず、ビデオ予測モデルに過ぎない。

World Labsの分類フレームワークは、この議論に決定的な回答を提供する。POMDPループにおいて、アクションは状態遷移を駆動する鍵となる入力であり、この入力が欠如したシステムは、完全な認知ループにおける「観測生成」段階の投影にすぎない。Soraはレンダラーであり、完全なワールドモデルでもなく、ワールドシミュレーターでもない。

しかし、これはSoraに価値がないことを意味しない。レンダリングが解決するのは、人間の視覚的期待に合致する画像を生成するという異なる問題である。この問題自体は非常に難しく、大きな商業的価値を有している。問題は、レンダリング機能を「世界を理解する」能力として包装することで、技術的意思決定者や投資家を誤導し、これらのモデルが物理的推論や具象的相互作用の能力をすでに備えていると誤解させてしまうことである。

概念の明確化による産業価値

「世界モデル」の定義の境界を明確にすることは、学術的な言葉遊びではない。それは技術選択、投資判断、そして一般の人々がAIの能力をどのように認識するかに直接影響を与える。

ロボット訓練に「ワールドモデル」を導入することを検討している製造企業にとって、そのモデルがレンダラーかシミュレーターか、それともプランナーであるかを明確にすることは、数百万ドルに及ぶ試行錯誤を避けるために不可欠である。映像だけを生成するモデルは、どれほど現実的であっても、物体の力の作用、運動経路、衝突の結果を正確に計算する能力には代えられない。

投資機関にとって、3つの投影を区別することは、プロジェクトがどの技術スタックに位置するかをより正確に特定できることを意味します。自社製品が本質的にレンダラーであるにもかかわらず「ワールドモデル」と称するスタートアップの場合、その競合はデジタルツインプラットフォームやロボット制御モデルではなく、ビデオ生成企業です。これは、市場規模の推定方法やベンチマーク企業の選定に直接影響します。

学術界にとって、明確な分類は比較可能なベンチマークを構築する前提である。もし「世界モデル」という用語がさらに広く一般化され続けるなら、研究者は何が改善であり、何が突破であるかを定義することが難しくなり、査読は曖昧さに基づいて行われることになる。

World Labsは記事の中で、概念の明確化が対立を生むためではないと指摘している。今後の発展方向は、この3つの投影の統合である。カップの物理的特性を真正に理解するモデルは、その視覚的外観をレンダリングし、倒れた際の物理的プロセスをシミュレートし、ロボットアームがそれを安定して掴むための計画を立てられるべきである。しかし、技術がその段階に到達する前に、それぞれの境界を明確に認識することは、統合の空想をすることよりも現実的な意義を持つ。

World Labsの記事によると、NVIDIA Omniverseを代表とするシミュレーターおよびデジタルツイン技術は、工場、倉庫、サプライチェーンなど、1兆ドルを超える潜在市場をターゲットとしている。この数字はベンダー自身の判断に基づくものであり、市場が実際にこの規模に達するかどうかは、高品質な3D物理データの不足というボトルネックをシミュレーターが突破できるかどうかにかかっている。

現在のAI業界において、最も重要な認識はおそらくシンプルである：リアルな動画を生成できることと、物理世界を理解できることは別である。世界モデルと呼ばれることがあっても、実際に世界をシミュレートしているわけではない。マーケティング用語を乗り越え、システムがPOMDPループにおいて何を入力として受け取り、何を出力として生成し、どの部分が欠けているかを検討することが、技術の限界を最も正直に評価する方法である。