フィー・フィー・リーは、AIコミュニティで長く議論されてきた論争に決着をつけようとしています:本当に「ワールドモデル」と呼べるのは何か、そして単に実験服を着た高級な動画生成ツールに過ぎないものは何か。
スタンフォード大学の教授でWorld LabsのCEOは、2026年6月3日に「World Modelsの機能的分類法」を発表し、ワールドモデルをレンダラー、シミュレーター、プランナーという3つの明確な機能に分類するフレームワークを提示した。この論文は、これらの3つの役割が、李が「空間的知性」と呼ぶ、物理的環境を実際に理解し相互作用できるAIの基盤となる相互接続されたループを形成すると主張している。
3つの仕事、1つのモデル
レンダラー関数は視覚的生成を担当します。これはデータ入力から高精細な視覚的表現を作成します。これは現在の「ワールドモデル」のほとんどが実際に行っていることであり、Liは、このレベルにとどまるシステムは真のワールドモデルではないと明確に主張しています。
シミュレーター機能はさらに深くまで及びます。単に何かがどのように見えるかを示すだけでなく、物理法則、原因と結果、そして時間経過に伴う物体の相互作用をモデル化します。レンダラーは、ボールが崖の縁に向かって転がる様子を表示できます。しかし、シミュレーターは、そのボールが崖から落ちることを理解しています。
プランナー機能は、シミュレーターが世界の仕組みを理解した上で行動計画を立てます。これは、キッチンをただ見守るAIと、キャビネットのすべての皿を割ることなくサンドイッチを作れるAIとの違いです。
これらの3つの機能は独立して動作しません。李の論文では、これらが連続的なループを形成し、各機能が他の機能に影響を与え、強化しあっていると説明されています。レンダラーはシミュレーターに視覚的コンテキストを提供し、シミュレーターはプランナーに物理的に根拠のある予測を提供し、プランナーの目標はレンダラーとシミュレーターが優先すべき内容を決定します。
なぜロボティクスがこれを切実に必要としているのか
リは、2025年11月の以前のマニフェストを含め、世界モデルがシミュレーションと現実のギャップを埋められると主張してきた。物理世界を十分に正確なデジタルレプリカとして構築できれば、ロボットはそこでまず訓練できる。
World Labsはすでにこの理論を実践に移し始めています。同社は2025年11月に初の商用製品であるMarbleをリリースしました。Marbleは、テキスト、画像、その他の入力で環境を記述することで、一貫性があり高精細な3Dワールドを生成します。このシステムはすでにロボットシミュレーション環境で使用されています。
ビデオとは異なり、Marbleの世界は移動しても幾何学的構造と物理法則が一貫して維持されます。Marbleの環境でロボットを訓練すると、同じ棚を異なる角度からアプローチしても、同じ位置に同じ物体を見つけることができます。
このミッションを支える資金
World Labsは2026年2月に、前回の2億3千万ドルの資金調達を基に10億ドルを調達しました。出資者にはAMD、Autodesk、NVIDIA、Fidelityが含まれます。
合計12億3千万ドルの資金調達により、World Labsは、大規模言語モデルの競争が注目を集める中、空間知能に焦点を当てたAIスタートアップとして、非常に稀な存在となりました。
