Nvidiaは、物理AI専用の初のオープン・オムニモデルと称するCosmos 3を5月31日に発表しました。このモデルは、推論、世界生成、行動機能を一つのシステムに統合し、ロボットや自律走行車が複雑で予測不可能な現実世界を実際に理解するのを支援することを目的としています。
Cosmos 3は、テキスト、画像、または動画の入力に基づいて最大30秒の予測動画シーケンスを生成でき、ロボットがアクチュエーターを1つ動かす前に、環境で次に何が起こるかを「想像」することを可能にします。
Cosmos 3が実際に行うこと
Cosmos 3は、NVIDIAがMixture of Transformersアーキテクチャと呼ぶ方式を用いて、複数の入力タイプを同時に処理します。このモデルは音声と動作のモダリティをサポートしており、Cosmos 3を搭載したロボットは、視覚、聴覚、行動を統合されたフレームワークで処理できます。
実用的な応用は、ロボットポリシー学習と呼ばれるものに集中しています。Cosmos 3は、Nvidiaがワールドアクションモデル(WAMs)と呼ぶものの基盤となり、エンボディードエージェントがこれまでに遭遇したことのない環境でも動作できるようにします。
2025年に築かれた基盤の上に構築
Nvidiaは2025年を通じて複数の以前のバージョンをリリースし、予測、転移学習、推論に焦点を当てたバリエーションを含んでいます。これらの以前のモデルはすでに серьезな顧客を引き付けています。
ヒューマノイドロボット企業のFigure AIは、二足歩行ロボットにCosmos技術を採用しました。もう一つのヒューマノイド企業であるAgility Roboticsも同様の取り組みを行いました。自動運転車の分野では、Uber、Waabi、Wayveがいずれも過去のCosmosバージョンを自社の自動運転開発に活用しています。
これは投資家と広い市場にどのような意味を持つのか
ロボティクス業界において、Cosmos 3のオープンな性質は、独自のワールドモデルをゼロから構築するリソースを持たない小規模なプレイヤーの採用を加速させる可能性があります。このモデルの核心機能の一つである合成データ生成は、これまでロボティクス開発の最大のボトルネックだった、高価なハードウェアを損傷することなく十分な現実世界の学習データを取得するという課題に対応しています。

