復旦與美團 LongCat 開源互動世界模型基準 WBench

ME AI 消息，根據動察 Beating 監測，復旦大學與美團 Longcat 團隊聯合開源交互式世界模型基準 WBench，評估視頻生成在物理規則、時空一致與交互控制的底層建模能力。基準包含 289 個測試用例與 1058 輪交互，涵蓋第一與第三人稱雙視角，整合導航控制、主體動作、事件編輯與視角切換。WBench 統一了文本指令、6 自由度位姿與離散動作接口，實現跨控制範式比對。評估體系包含 22 個自動指標，打分結果與人類盲測勝率的 Spearman 秩相關係數至少達到 0.94。測試表明，相較於趨於飽和的視頻質量，交互控制與模型的渲染、一致性及物理水平幾乎解耦。相機運動控制並不保證主體一致性，例如導航表現優異的 HY-World 1.5 和 Matrix-Game 3.0 在第三人稱視角下均面臨主體身份丟失和視角漂移瓶頸。同時，物理正確性與渲染質量高度正相關，但與控制能力接近零相關。開源世界模型在多個維度領跑，HY-World 1.5 取得導航控制最高分，LingBot-World 奪得一致性榜首，Matrix-Game 3.0 則在動作導航中位列第一。多輪交互表明，所有模型性能均隨輪數增加而衰退，導航控制因累積空間偏差退化最快。顯式幾何控制能有效緩解漂移，例如 HY-World 1.5 的多輪穩定性遠超文本驅動的 Kling 3.0。場景動態與主體剛性構成基準難度的底層邏輯，第一人稱、靜態場景與剛體機器人主體極易跑通，而劇烈運動、動物等非剛體主體因形變和速度複雜性仍是業界長期挑戰。（來源：BlockBeats）