マイクロソフトと浙江大学、強化学習を用いた動画モデルにおける3D一貫性「World-R1」を発表

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
オンチェーンニュース:Microsoft Researchと浙江大学は4月28日、3Dデータセットなしでビデオモデルが3D幾何学を理解できる強化学習手法「World-R1」を発表しました。このシステムはDepth Anything 3を使用して3Dガウシアンを再構築し、レンダリングされたビューとオリジナルの映像を比較します。エラー、トラジェクトリ、Qwen3-VLの信頼性に基づく報酬信号はFlow-GRPOで最適化されます。モデルにはWan 2.1(1.3Bおよび14B)が含まれ、3,000のGemini生成プロンプトで学習されました。World-R1-LargeはPSNRを7.91dB改善し、World-R1-Smallは10.23dB改善しました。コードはGitHub上でCC BY-NC-SA 4.0の下で公開されています。リアルワールドアセット(RWA)のニュースは、AI駆動の3Dモデリングにおけるこの進歩を強調しています。

AIMPACTのニュース、4月28日(UTC+8)、動察Beatingの監視によると、マイクロソフト研究室と浙江大学のチームは、強化学習を用いてテキストから動画を生成するモデルに3D幾何一貫性を学習させる「World-R1」を提案しました。この手法はモデルアーキテクチャを変更せず、3Dデータセットにも依存しません。核心的なアイデアは、動画を生成した後、事前学習済みの3D基礎モデル「Depth Anything 3」を用いてシーンの3Dガウス(3DGS)を再構築し、新しい視点からレンダリングして元の動画と比較することで、再構築誤差、トラジェクトリーバイアス、および新しい視点のセマンティックな信頼性(Qwen3-VLによるスコアリング)を組み合わせた報酬信号を生成し、Flow-GRPO(流一致モデルに適応させた強化学習アルゴリズム)を通じて動画モデルにフィードバックするものです。ベースモデルはオープンソースの万相Wan 2.1(1.3Bおよび14B)を使用し、それぞれWorld-R1-SmallとWorld-R1-Largeを訓練しました。訓練データはGeminiが生成した約3000件の純粋なテキストプロンプトのみで、いかなる3Dアセットも使用していません。訓練中は100ステップごとに「動的ファインチューニング」を挿入し、一時的に3D報酬を無効化して画質報酬のみを維持することで、モデルが幾何学的剛性を追求して人物の動きなどの非剛体ダイナミクスを抑制するのを防いでいます。3D一貫性指標において、World-R1-LargeのPSNR(ピーク信号対雑音比)はベースモデルWan 2.1 14Bより7.91dB向上し、Small版は10.23dB向上しました。VBenchによる汎用動画品質も低下せず、むしろ向上しました。25人による盲検テストでは、幾何学的一貫性の勝率は92%、全体的な好ましさは86%でした。コードはGitHub上で公開されており、ライセンスはCC BY-NC-SA 4.0です。(出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。