AIスタートアップのDecartが、自動運転シナリオのシミュレーションを特徴とする次世代ワールドモデル「Oasis 3」をリリース。同社は、稀な道路状況を大規模にテストする必要のある自動運転企業へのサービス提供から始め、その後ロボットやその他の物理AIアプリケーションへと拡大する予定であり、リリース当初からAPIを開放し、開発者がワールドモデルを基にした製品を構築できるようにする。
自動運転および開発者向けに開放
Decartの共同設立者兼CEOであるDean Leitersdorfは、同社がOasis 3を単なるデモ用の研究プロジェクトではなく、プログラミング可能な世界モデルプラットフォームにしたいと考えていると述べた。同社によると、現在のユーザーは10万人以上の開発者に上り、その多くは既にリアルタイムビデオモデルLucyを基にeコマースやライブストリーミング関連の製品を開発している。
Oasis 3 はこの基本モデルに基づいて構築され、Decart が物理 AI へさらに進出することを示しています。同社によると、製品は秒単位で課金され、標準料金は毎秒0.02ドルですが、企業顧客の料金は用途に応じて決定されます。

長時間生成とリアルな画質を主な特徴に
Decartは、Oasis 3の主な強みは映像のリアルさと継続的な生成能力にあると考えている。このモデルは、前方および両側の視点を含むマルチカメラ運転環境を生成し、自動運転システムの訓練とテストに使用できる。限られたデモのみを提供する他の製品とは異なり、Oasis 3は開発者がより多くのエッジケースをカバーできるよう、シーンを継続的に生成することを可能にする。
同社はこの能力を基盤となるソフトウェアスタックであるDOSに起因すると述べている。Decartは、この最適化ソフトウェアにより、モデルがNvidia、Amazon、Googleのハードウェア上でより効率的に動作し、推論コストを削減できると述べている。Leitersdorfは、ソフトウェアとハードウェアの統合最適化により、同社の運用コストは業界の他のプレイヤーと比較して1桁以上低くなると述べている。
競争が激化し、資金調達後により迅速に実装
過去1年で、世界モデル分野は明確に活発化している。これまでに、GoogleはGenie 3の研究プレビュー版をリリースし、李飛飛が設立したWorld Labsは商業用途向けのMarbleを発表した。また、LumaやRunwayなどの動画生成企業も、物理的認識機能を備えた動画モデルを世界モデルの方向に拡張している。
Oasis 3 のリリース数週間前、設立2年のDecartは3億ドルの資金調達を完了し、評価額は40億ドルに迫った。同社は、この資金調達がeコマース、ライブストリーミング、物理AI関連の需要の急成長によるものだと述べている。トヨタ、Adobe、eBay、および既存の投資家であるNVIDIAが本ラウンドに参加しており、これらの企業は同社の潜在的顧客となる可能性もある。
長時間運用後も歪みが発生します

ただし、Oasis 3 には現在も明確な制限があります。TechCrunchの実際のテストによると、モデルはプロンプトに合った初期のシーンを比較的よく生成できますが、ユーザーが環境内で継続して移動すると、シーンのテーマが次第に弱まります。たとえば、最初にニューヨークの街並みが生成されても、移動を続けると環境はより一般的な西洋の都市道路に変わっていきます。
テストはまた、モデルが空間的連続性において不安定であることを示しました。ユーザーが元の交差点に戻った場合、元のシーンは既に消え、新しい環境に置き換わっている可能性があります。車両の制御応答も十分に安定しておらず、走行方向がユーザーの操作からずれることがあります。
物理的一貫性仍然是難題
もう一つの問題は衝突物理です。テストでは、車両が他の車両を直接通過してしまうことがあり、これはモデルが現実の物理関係を安定してシミュレートできていないことを示しています。Leitersdorfはこれを現在の重要な研究課題と呼び、トレーニングデータにおいて「通常の運転」が事故シナリオよりもはるかに多いこともその一因であると述べています。
彼は、Oasis 3 が自己回帰方式でフレームごとにコンテンツを生成し、各フレームが前の結果を参照して次のフレームを決定するため、計算リソースとコンテキスト長に高い要件を課すと説明した。彼の話によると、1フレームは約8000トークンに相当し、秒間数十フレームの生成速度ではコンテキストウィンドウがすぐに満杯になる。同社は現在、より長いコンテキストとより効率的なメモリ圧縮手法の研究を進めている。
Leitersdorfは、次バージョンで一貫性の問題が一部改善される見込みです。その際、ユーザーは単一の画像ではなく、環境ビデオに基づいて世界を生成できるようになります。
