復旦與美團 LongCat 開源互動世界模型基準 WBench
KuCoinFlash復旦大學與美團LongCat已開源WBench,這是一個用於評估互動世界模型中視頻生成的基準測試。WBench包含289個測試案例和1,058個互動回合,並提供導航、動作與觀點控制方面的支撐與阻力指標。該基準測試採用文字、6自由度姿態和離散動作進行跨控制比較。評估包含22項指標,與人類評分具有高度相關性。測試顯示,物理準確性與渲染效果一致,但控制能力仍落後。未平倉分析凸顯模型在多輪互動中的弱點,其中導航控制衰退最快。HY-World 1.5在穩定性上領先,而LingBot-World在一致性上表現出色。第一人稱視角與剛性主體仍較易處理,而非剛性主體則仍是持續的挑戰。
ME AI 消息,根據 動察 Beating 監測,復旦大學與美團 Longcat 團隊聯合開源交互式世界模型基準 WBench,評估視頻生成在物理規則、時空一致與交互控制的底層建模能力。基準包含 289 個測試用例與 1058 輪交互,涵蓋第一與第三人稱雙視角,整合導航控制、主體動作、事件編輯與視角切換。WBench 統一了文本指令、6 自由度位姿與離散動作接口,實現跨控制範式比對。評估體系包含 22 個自動指標,打分結果與人類盲測勝率的 Spearman 秩相關係數至少達到 0.94。測試表明,相較於趨於飽和的視頻質量,交互控制與模型的渲染、一致性及物理水平幾乎解耦。相機運動控制並不保證主體一致性,例如導航表現優異的 HY-World 1.5 和 Matrix-Game 3.0 在第三人稱視角下均面臨主體身份丟失和視角漂移瓶頸。同時,物理正確性與渲染質量高度正相關,但與控制能力接近零相關。開源世界模型在多個維度領跑,HY-World 1.5 取得導航控制最高分,LingBot-World 奪得一致性榜首,Matrix-Game 3.0 則在動作導航中位列第一。多輪交互表明,所有模型性能均隨輪數增加而衰退,導航控制因累積空間偏差退化最快。顯式幾何控制能有效緩解漂移,例如 HY-World 1.5 的多輪穩定性遠超文本驅動的 Kling 3.0。場景動態與主體剛性構成基準難度的底層邏輯,第一人稱、靜態場景與剛體機器人主體極易跑通,而劇烈運動、動物等非剛體主體因形變和速度複雜性仍是業界長期挑戰。(來源:BlockBeats)免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。