五大学チーム、デジタルヒューマン向けの視覚誘導型3Dナビゲーションフレームワークを開発

MEニュース：4月14日（UTC+8）、1M AI Newsの監視によると、北京大学、カーネギーメロン大学、同済大学、カリフォルニア大学ロサンゼルス校、ミシガン大学の共同チームがarXivにVGHumanを発表しました。VGHumanは、デジタルエージェントが視覚情報のみで未知の3D環境において自律的に行動できるエムボディードAIフレームワークです。従来のデジタルエージェントシステムは、事前定義されたスクリプトや特権的な状態情報に依存していましたが、VGHumanはデジタルエージェントに「本当の目」を与え、自ら道を確認し、計画し、行動することを可能にします。このフレームワークは2層構造です。World Layerは単眼動画からセマンティックアノテーションとコリジョンメッシュを備えた3Dガウスシーンを再構築し、遮蔽認識設計により複雑な屋外環境でも隠れた小型物体を認識できます。Agent Layerは、デジタルエージェントに第一人称RGB-D（カラー＋深度）感知を提供し、空間的視覚プロンプトと反復的推論を通じて計画を生成し、最終的に拡散モデルで全身の動作シーケンスに変換してキャラクターを制御します。 200のテストシーンからなるナビゲーションベンチマークにおいて、簡単な経路、障害物回避、動的歩行者という3つの難易度レベルで、VGHumanのタスク成功率はNaVILA、NaVid、Uni-NaVidなどの最強ベースラインを最大で約30ポイント上回り、衝突率は同等または更低でした。このフレームワークは走行やジャンプなど複数の運動スタイルをサポートし、複数の連続目標への長期計画も可能です。コードとモデルはオープンソース化予定で、GitHubリポジトリは既に作成されています。（出典：BlockBeats）