復旦大学と美团LongCatがオープンソースのインタラクティブワールドモデルベンチマークWBenchを公開

ME AIのニュースによると、動察Beatingの監測によれば、復旦大学と美团Longcatチームが共同で、インタラクティブなワールドモデルのベンチマーク「WBench」をオープンソース化しました。このベンチマークは、物理法則、時空間的一貫性、インタラクション制御における動画生成の基礎的モデリング能力を評価します。WBenchは289のテストケースと1,058ラウンドのインタラクションを含み、第一人称と三人称の両視点をカバーし、ナビゲーション制御、主体の動作、イベント編集、視点切り替えを統合しています。WBenchはテキスト指令、6自由度の姿勢、離散アクションインターフェースを統一し、異なる制御パラダイム間の比較を実現しています。評価体系には22の自動指標が含まれ、スコア結果と人間のブラインドテスト勝率のSpearman順位相関係数は最低でも0.94に達しています。テスト結果によると、動画品質が飽和傾向に達する一方で、インタラクション制御とモデルのレンダリング、一貫性、物理的精度はほぼ独立しています。カメラの動き制御は主体の一貫性を保証せず、たとえばナビゲーション性能が優れたHY-World 1.5とMatrix-Game 3.0は三人称視点で主体の識別喪失と視点ドリフトのボトルネックに直面しています。また、物理的正確性とレンダリング品質は高い正相関を示しますが、制御能力とはほぼ無相関です。オープンソースのワールドモデルは複数の指標でリードしており、HY-World 1.5がナビゲーション制御で最高得点を獲得し、LingBot-Worldが一貫性でトップ、Matrix-Game 3.0がアクションナビゲーションで首位を獲得しました。複数ラウンドのインタラクションでは、すべてのモデルの性能がラウンド数の増加に伴って低下しており、ナビゲーション制御は累積的な空間バイアスにより最も急速に劣化しています。明示的な幾何学的制御はドリフトを効果的に緩和し、たとえばHY-World 1.5のマルチラウンド安定性はテキスト駆動のKling 3.0を大幅に上回ります。シーンのダイナミクスと主体の剛体性がベンチマークの難易度の根本的なロジックを構成しており、第一人称視点・静的シーン・剛体ロボット主体は比較的容易に実行できますが、激しい動きや動物などの非剛体主体は変形と速度の複雑さにより、業界全体で長期的な課題となっています。（出典：BlockBeats）