HWM、ワールドモデルにおける長期的計画を推進

導語

過去1年間の世界モデルに関する研究の焦点は、当初、表現学習と未来予測に集中していた。モデルはまず世界を理解し、その後内部で未来の状態を推論する。このアプローチは、これまでに数多くの代表的な成果を生み出してきた。V-JEPA 2（Video Joint Embedding Predictive Architecture 2——Metaが2025年に発表した動画世界モデル）は、100万時間以上のインターネット動画で事前学習を行い、少量のロボット相互作用データと組み合わせることで、世界モデルが理解・予測・ゼロショットロボット計画において示す可能性を実証した。

しかし、モデルが予測できることと、モデルが長期間のタスクを処理できることとは異なる。多段階制御に直面した場合、システムは通常、二つの課題に直面する。一つ目は、予測誤差が長期間のロールアウト（連続した複数ステップの推論）において蓄積され、全体のパスが目標から徐々に逸脱しやすくなることである。二つ目は、アクションの探索空間がホライズン（計画視野）の拡大に伴い急速に増大し、計画コストが継続的に上昇することである。HWMは、世界モデルの基礎的な学習ルートを変更せず、既存のアクション条件付き世界モデルに階層的計画構造を追加することで、システムがまず段階的なパスを構成し、その後局部的なアクションを処理できるようにする。

技術的に見ると、V-JEPA 2（https://ai.meta.com/research/vjepa/）は世界の表象と基礎的な予測に焦点を当て、HWMは長期的な計画に、WAV（World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry、https://arxiv.org/abs/2604.01985）はモデルが自身の予測の歪みを認識し修正することに重点を置いています。これらの3つのアプローチは徐々に収束しつつあります。世界モデルの研究の焦点は、単に未来を予測することから、予測能力を実行可能で、修正可能で、検証可能なシステム能力に変換する方法へと移行しています。

一、長期制御が依然として世界モデルのボトルネックである理由

長期制御の難しさは、ロボットタスクに置き換えるとより明確に理解できる。たとえば、機械腕がコップを掴んで引き出しにしまうというタスクは、単一の動作ではなく、連続した複数のステップからなる。システムは物体に近づき、姿勢を調整し、掴みを実行し、目標位置まで移動し、引き出しを操作して配置する必要がある。この連鎖が長くなると、二つの問題が同時に生じる。一つ目は、予測誤差がロールアウトに沿って蓄積されることであり、二つ目は、アクションの探索空間が急速に拡大することである。

欠けているのは、通常、局所的な予測能力ではなく、遠い目標を段階的なパスに整理する能力である。多くの動作は局所的には目標から逸脱しているように見えるが、実際には目標を達成するために必要な中間ステップである。たとえば、掴む前に腕を上げる、引き出しを開ける前に少し後退して角度を調整するなどである。

展示型タスクでは、世界モデルは一貫した予測を提供できるようになったが、実際の制御シナリオに移行すると、性能が低下し、問題が顕在化する。圧力は表象そのものだけでなく、計画層の未熟さにも由来する。

二、HWMはどのように計画プロセスを再構築するか

HWMは、従来の1段階で完了していた計画プロセスを2段階に分割しました。上位層は長期的な段階の方向性を担当し、下位層は短期的な局所的な実行を担当します。モデルは単一のリズムで計画するのではなく、2つの異なる時間スケールで同時に計画します。

長時間のタスクを単層手法で処理する場合、通常、低レベルのアクション空間内で一連のアクション全体を直接検索する必要がある。タスクが長くなるほど検索コストが増加し、予測誤差が複数ステップにわたるロールアウトに沿って拡散しやすくなる。HWMはプロセスを分割し、高レベルは長期間スケールでのルート選択のみを担当し、低レベルは現在の一連のアクションの完了のみを担当する。これにより、長いタスクが複数の短いタスクに分割され、計画の複雑さが低下する。

もう一つの重要な設計は、上位層の動作が単に二つの状態間の差分を記録するのではなく、エンコーダーを使って低位層の動作の列を上位層の動作表現に圧縮することです。長期間のタスクにおいて、重要なのは開始点と終了点の差だけでなく、その中間ステップがどのように構成されているかです。上位層が移動差のみを観察すると、この動作チェーン内のパス情報が失われやすくなります。

HWMは階層的なタスク組織方式を示しています。複数の段階からなる作業に直面した際、システムはすべてのアクションを一度に展開するのではなく、まず粗い段階のパスを形成し、その後段階的に実行と修正を行います。この階層関係が世界モデルに取り込まれると、予測能力がより安定して計画能力に変換され始めます。

三、0％から70％への変化は、どのような実験結果を示しているか

論文で設定された現実世界の取得・配置タスクにおいて、システムは最終目標条件のみを取得し、人間が事前に分解した中間目標は提供されない。このような条件下で、HWMの成功率は70％であり、単層ワールドモデルの成功率は0％である。元々ほぼ達成不可能だった長距離タスクが、階層的計画の導入により、高確率で実現可能となった。

論文は、物体推し操作や迷宮ナビゲーションなどのシミュレーションタスクもテストしました。結果によると、階層的計画は成功率を向上させるだけでなく、計画段階の計算コストも削減しました。一部の環境では、計算コストを元の約4分の1まで削減しつつ、より高いまたは同等の成功率を維持できました。

四、V-JEPAからHWMへ、そしてWAVへ

V-JEPA 2は、世界の表象というアプローチを表しています。V-JEPA 2は、100万時間以上のインターネット動画で事前学習を行い、その後、62時間未満のロボット動画を用いてポストトレーニング（事前学習後のターゲットトレーニング）を実施することで、物理世界の理解、予測、計画に使用可能なlatent action-conditioned world model（抽象表現空間内でアクション情報を組み合わせて予測する世界モデル）を構築しています。これは、大規模な観察から世界の表象を獲得し、それをロボット計画に移転できることを示しています。

HWMは次のステップにあります。モデルは世界の表象と基本的な予測能力を既に備えていますが、マルチステージ制御に入ると、誤差の蓄積と探索空間の拡大の問題が顕著になります。HWMは基礎的な表象学習の路線を変更せず、既存のアクション条件付き世界モデルに複数の時間スケールの計画構造を追加しています。HWMが解決しようとしているのは、モデルが遠い目標を一連の中間ステップに整理し、段階的に推進する方法です。

WAVはさらに検証能力に焦点を当てます。世界モデルが戦略最適化とデプロイのシナリオに進出するには、予測だけでなく、どの領域で歪みが生じやすいかを自ら見つけ出し、それに基づいて補正できる必要があります。これには、モデルがどのように自らをチェックするかが関係しています。

V-JEPAは世界の表象に焦点を当て、HWMはタスク計画に、WAVは結果の検証に焦点を当てます。三者は注目点が異なりますが、大きな方向性は一致しています。次世代の世界モデルは、内部予測にとどまらず、予測・計画・検証が徐々に一体のシステム能力として連携するようになります。

5. 内部予測から実行可能なシステムへ

過去の多くの世界モデルの研究は、将来の状態予測の連続性を高めること、または内部世界表象の安定性を向上させることに焦点を当てていた。しかし、現在の研究の重点はすでに変化し、システムは環境に対する判断を形成するとともに、その判断を行動に変換し、結果が出た後に次のステップを修正し続ける必要がある。現実のデプロイに近づくためには、長期タスクにおいて誤差の伝播を制御し、探索範囲を圧縮し、推論コストを削減することが必要である。

このような変化はAIエージェントにも影響を与えます。多くのエージェントシステムは、ツールの呼び出し、ファイルの読み取り、複数のステップの実行など、短い経路のタスクを完了できますが、タスクが長距離で複数段階にわたり、途中で再計画を必要とする場合、パフォーマンスは低下します。これはロボット制御における課題と本質的に異ならず、高レベルの経路組織能力の不足により、局所的な実行と全体的な目標との間にズレが生じているのです。

HWMが提供する階層的アプローチでは、上位層が経路と段階的な目標を担当し、下位層が局所的なアクションとフィードバック処理を担当し、その上で結果の検証を重ねる。このような階層構造は、今後さらに多くのシステムで継続して登場するだろう。世界モデルの次段階では、未来の予測にとどまらず、予測・実行・修正を実行可能な経路として統合することが重点となる。