微軟與浙江大學推出 World-R1:透過強化學習實現影片模型的 3D 一致性

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
鏈上新聞:微軟研究與浙江大學於4月28日發布了World-R1,這是一種強化學習方法,可讓視頻模型在無需3D數據集的情況下理解3D幾何。該系統使用Depth Anything 3重建3D高斯分佈,然後將渲染視圖與原始影片進行比較。基於誤差、軌跡和Qwen3-VL可信度的獎勵信號通過Flow-GRPO進行優化。模型包括Wan 2.1(1.3B和14B),使用3,000個Gemini生成的提示進行訓練。World-R1-Large的PSNR提升了7.91dB,World-R1-Small提升了10.23dB。代碼已在GitHub上以CC BY-NC-SA 4.0許可證公開。真實資產(RWA)新聞強調了此項在AI驅動3D建模方面的進展。

AIMPACT 消息,4 月 28 日(UTC+8),據 動察 Beating 監測,微軟研究院與浙江大學團隊提出 World-R1,透過強化學習讓文生視頻模型學會 3D 幾何一致性,無需修改模型架構,亦不依賴 3D 數據集。核心思路:生成視頻後,使用預訓練的 3D 基礎模型 Depth Anything 3 重建場景的 3D 高斯(3DGS),再從新視角渲染並與原視頻比對,將重建誤差、軌跡偏差與新視角語義可信度(由 Qwen3-VL 評分)組合為獎勵信號,透過 Flow-GRPO(一種適配流匹配模型的強化學習算法)反饋給視頻模型。基座模型為開源的萬相 Wan 2.1(1.3B 和 14B),分別訓練出 World-R1-Small 和 World-R1-Large。訓練數據僅約 3000 條純文本 prompt,由 Gemini 生成,未使用任何 3D 資產。訓練時每 100 步插入一輪「動態微調」,暫時關閉 3D 奖勵、僅保留畫質獎勵,以防止模型為追求幾何剛性而壓制人物運動等非剛體動態。在 3D 一致性指標上,World-R1-Large 的 PSNR(峰值信噪比)比基座 Wan 2.1 14B 提升 7.91dB,Small 版提升 10.23dB。VBench 通用視頻質量不降反升。在 25 人盲測中,幾何一致性勝率為 92%,整體偏好為 86%。代碼已於 GitHub 開源,許可為 CC BY-NC-SA 4.0。(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露